반응형
LLaMA 100배 빠르게 사용하는 방법!
반응형
LLaMA load를 C++ I/O 에서 mmap() 사용하면 100배 빨라지고 메모리 사용량도 절반만 사용할 수 있습니다.
mmap() 을 사용하게 된 이유!
LLaMA가 나오고 나서 실제 자기 컴퓨터에 LLaMA 모델을 사용해보기에는 컴퓨터 성능 문제가 발생했습니다.
이를 해결하기 위한 방법 중 하나로 mmap()을 사용하여 weight을 load 하는 것입니다.
기존에 C++ I/O를 사용하는 것보다 mmap()을 사용하는 것이 100배 빠르게 load 할 수 있으며 메모리도 절반 가량만 사용하다고 합니다.
mmap()가 좋은 이유!
- mmap()는 페이지를 복사를 하지 않습니다.
mmap() 사용해보기
아래 Github를 통해 mmap()를 사용해보실 수 있습니다.
https://github.com/ggerganov/llama.cpp
더 자세한 내용은 아래 링크 참조해주세요~
반응형