반응형

LLaMA 100배 빠르게 사용하는 방법!

반응형

 LLaMA load를 C++ I/O 에서 mmap() 사용하면 100배 빨라지고 메모리 사용량도 절반만 사용할 수 있습니다.

 

 

mmap() 을 사용하게 된 이유!

LLaMA가 나오고 나서 실제 자기 컴퓨터에 LLaMA 모델을 사용해보기에는 컴퓨터 성능 문제가 발생했습니다.

이를 해결하기 위한 방법 중 하나로 mmap()을 사용하여 weight을 load 하는 것입니다.

기존에 C++ I/O를 사용하는 것보다 mmap()을 사용하는 것이 100배 빠르게 load 할 수 있으며 메모리도 절반 가량만 사용하다고 합니다.

 

mmap()가 좋은 이유!

- mmap()는 페이지를 복사를 하지 않습니다.

 

mmap() 사용해보기

아래 Github를 통해 mmap()를 사용해보실 수 있습니다.

https://github.com/ggerganov/llama.cpp

 

GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++

Port of Facebook's LLaMA model in C/C++. Contribute to ggerganov/llama.cpp development by creating an account on GitHub.

github.com

 

 

더 자세한 내용은 아래 링크 참조해주세요~

https://justine.lol/mmap/?fbclid=IwAR02T8hR1ZEpljlsVVvbdHjIadQ5rO8sXusDP4gWz2GTqWSJi7dgs2EIExw&mibextid=Zxz2cZ 

 

Edge AI Just Got Faster

Using mmap() to load LLaMA faster in parallel with less memory.

justine.lol

 

반응형

+ Recent posts