맥북 실리콘에서 LLAMA2 로컬에서 돌리는 방법입니다.
reference : https://www.youtube.com/watch?v=TsVZJbnnaSs
Repos and models
1. Request access: https://ai.meta.com/resources/models-and-libraries/llama-downloads/
2. Clone: https://github.com/facebookresearch/llama
3. Clone: https://github.com/ggerganov/llama.cpp
위 두 개의 git repository를 클론하고 1번 url에서 llama2 model을 받습니다.
llama2 모델은 (7B, 13B, 70B, 7B-chat, 13B-chat, 70B-chat) 6가지 종류 중 하나입니다.
7B 모델 기준 13GB정도 합니다.
lamma2 git repository 안에서 download.sh 파일을 실행시키면 1번 url에서 나온 request access url을 사용해서
llama2 model을 받을 수 있습니다.
다음은, lamma.cpp directory 안에서 다음을 실행합니다.
# 관련 library 설치
python3 -m pip install -r requirements.txt
# 16 비트 bin file로 변환 (주의 models/7B directory 만들어주기)
python3 convert.py --outfile models/7B/ggml-model-f16.bin --outtype f16 ../../llama2/meta_models/llama-2-7b-chat
# llama.cpp make
make
# 16Bit file을 4Bit file로 quantize
./quantize ./models/7B/ggml-model-f16.bin ./models/7B/ggml-model-q4_0.bin q4_0
# 실행
./main -m ./models/7B/ggml-model-q4_0.bin -n 1024 --repeat_penalty 1.0 --color -i -r "User:" -f ./prompts/chat-with-bob.txt