Deep Learning/NLP

LLAMA2. 과연 엄청난 혁신일까?

jinmc 2023. 7. 24. 16:21
반응형

LLAMA 모델이 공개(또는 유출?) 되면서 한번 파란이 일었었는데, 생각보단..? 별로 우리의 삶에 영향이 없었던 것으로 생각됩니다.그 이유로는, 아마 훨씬 더 좋은 모델인 GPT3, GPT3.5, GPT4 가 무료 또는 적은 비용으로 사용이 가능하기 때문이라고 생각됩니다. 게다가, LLAMA 초기 모델의 경우 모델을 구하는것도 상당히 어려웠어서, 더 개발하기가 힘든 부분이 있었습니다. 하지만 이번 LLAMA2 같은 
경우, 메타에서 작정하고 내놓은 느낌입니다.

 

그럼 LLAMA 1에 비해서 어떤 점이 달라졌는지 살펴볼까요??

 

context size가 커진 것, 훈련에 사용된 데이터가 40% 늘어난 점, 상업적 사용이 가능한 점 이외에, 가장 중요한 점은, Fine-tune할 수 있는 Chat version이 생긴 점입니다.

 

논문 주소 : https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/ 

참고 유튜브 : https://www.youtube.com/watch?v=E-WOR6jfBLo&list=PLgmJjQGbPO9FhDv7b7abgu-0fo08JShY8&index=7&t=11s 

 

논문은 77 페이지로 이루어져 있으며, 많은 부분을 공개하고 있습니다. 

LLAMA 2는 7B, 13B, 34B, 70B 모델로 이루어져 있으며, Safety issue로 인해서 34B 모델은 공개하지 않는다고 합니다.

사실 34B모델이 가장 범용성이 있는 모델이라고 합니다. 

 

성능으로는, 현재 우수한 오픈소스 모델이라고 여겨지는 MPT나 Falcon 보다 우수하지만, 

 

 

결국 closed-source 모델인 palm2 나 gpt4에 비해서는 떨어진다고 합니다.

재미있는 점은, coding이나 math에서는 좀 떨어진다고 하는군요. Orca나 Phi같은 모델을 넣지 않은걸로 봐서, 그 모델들보다도 떨어지지 않을까 생각됩니다.

 

또 한가지 주목할 만한 점은, Safety 에 엄청나게 신경쓰고 있다는 것이 느껴진다는 것이었습니다. 34B모델을 Safety 때문에 공개하지 않는 점도 그렇고, Safety 관한 많은 애를 쓴 점도 보입니다. 

 

신기한 점은, 7억명이 넘는 유저 베이스가 있는 기업들은 사용하지 말라고 합니다. 구글이나 아마존같은 대기업은 사용하지 말라는 뜻인 듯 합니다.

 

결론적으로 LLAMA2가 엄청난 혁신이냐? 라고 물어보면, 일단 개발하는 사람 입장에서는 오픈소스에서 돌아갈 만한 좋은 모델을 개발해 준 것에 대해서 너무나도 감사하지만, 과연 ChatGPT나 Palm을 대체할 수 있을 정도로 개발할수 있을까는, 앞으로의 동향을 봐야될것 같습니다. 

반응형