Search
🦙

#2 LLaMA가 주목 받는 이유

Issue
Issue 2
날짜
2023/08/16
시즌
Season 2
작성자

 Cover Story

LLaMA가 주목 받는 이유

이런 내용이 담겨 있어요!
LLaMA 이전 언어 모델 경량화 / 최적화의 연구 흐름을 짚어봤어요.
LLaMA가 주목 받는 3가지 특징(1.추론 비용 절감 2.오픈 소스 3. LLaMA 2-Chat)을 정리했어요.
ChatGPT와 차별화된 LLaMA가 활용성을 분석했어요.
요즘 자연어 처리 분야에서 가장 핫한 모델은 바로 LLaMA(라마)입니다. LLaMA를 처음 들어보셨다고요? LLaMA는 Meta가 지난 2월 선보인 언어 모델입니다. LLaMA는 적은 파라미터(70B)로도 GPT-3(175B)을 뛰어 넘는 성능을 보였는데요. 게다가 이를 누구나 활용할 수 있는 오픈 소스로 공개하면서 기업과 연구자들 사이에서 화제가 됐습니다.
이전까지는 더 많은 파라미터를 가진 모델이 더 뛰어난 성능을 보인다는 평이 지배적이었는데 LLaMA는 작은 모델도 뛰어난 성능을 낼 수 있다는 것을 보여줬습니다. 그렇다면 LLaMA는 어떻게 더 적은 파라미터로도 뛰어난 성능을 보일 수 있었을까요? LLaMA와 LLaMA 2 논문 내용을 기반으로 LLaMA 시리즈의 특징을 알아보겠습니다.
잠깐! 파라미터? 그게 뭔데?
파라미터(Parameter)는 보통 매개변수로 번역하는데요. 여기서는 AI 모델의 학습 가중치를 의미합니다. AI 모델은 사실 엄청나게 많은 양의 숫자들로 이뤄져 있습니다. 이 숫자들(가중치)을 조금씩 조정하면서 우리가 원하는 값이 나오도록 예측하는 과정이 바로 AI의 학습입니다. 일반적으로 모델의 파라미터가 많을수록 데이터의 특성을 더 잘 학습할 수 있습니다.
물론, 파라미터가 많다고 항상 좋은 것은 아닙니다. 너무 많은 파라미터를 갖는 경우 가중치가 이미 학습한 데이터의 특성에 과도하게 맞춰져 있어, 오히려 새로운 데이터에 대해서는 잘 맞히지 못할 수 있어요. 이를 과적합(Overfitting) 문제라고 합니다. 데이터에 따라 적절한 파라미터 수를 설정하는 것이 중요합니다.

LLaMA 이전의 경량화 연구들

LLaMA 이전부터 모델 경량화를 위한 노력은 이어져왔습니다. 그 분기점에는 DeepMind의 연구가 있습니다. 당시 연구 흐름은 모델의 크기를 키워 성능을 높이자는 데 가까웠습니다. DeepMind는 2021년 말 Gopher를 공개하면서 모델의 크기(파라미터 수)에 따라 성능을 비교했습니다. 그리고 쉽게 예상할 수 있듯, 많은 영역에서 모델의 크기를 키우는 것이 성능 향상에 도움이 된다는 사실을 밝혀냈습니다.
이후 2022년 3월에 이어진 연구에서는 Gopher 모델을 더욱 최적화하여 Chinchilla를 공개했습니다. DeepMind 연구진들은 Gopher(280B) 모델이 충분히 학습되지 않았다고 판단한 것인데요. 같은 연산량으로 더 가볍고 더 좋은 성능을 낼 수 있다고 생각한 것이죠.
그래서 연구진은 여러 실험을 통해 파라미터 크기와 학습 데이터 수를 적절히 조절하며 가장 좋은 성능을 발휘하는 관계를 찾았습니다. 그 결과 Chinchilla 모델은 Gopher와 동일한 컴퓨팅 자원을 활용하면서도, 4배 적은 70B의 파라미터에 4배 많은 데이터를 학습하여 Gopher보다 더 좋은 성능을 보였습니다. 더 가볍고 더 똑똑한 모델을 개발한 것입니다.

LLaMA의 3가지 특징

1) 더 저렴한 추론 비용
LLaMA는 여기서 한 발 더 나아갔습니다. 학습 비용뿐만 아니라 추론 비용까지 고려한 것인데요. 학습에서 그러한 것처럼 얼마나 빠르게, 저렴하게 추론할 수 있는지도 중요하다는 것입니다. 이때 추론(Inference)이란, 사전학습 이후에 새로운 데이터에 대해 결과를 도출하는 과정을 말합니다. 사용자들의 모델에 요청하면 사전 학습된 정보에 따라 추론한 결과를 내놓는 것입니다.
LLaMA는 Chinchilla 연구 결과와 다르게 더 적은 파라미터(7B)로 더 많은 데이터(1T; 1 Trillion)를 학습하여 성능을 끌어올렸습니다. 당장 학습 시간은 조금 걸리더라도 장기적으로는 파라미터가 더 작은 모델을 개발하는 것이 유지 및 추론 비용을 절감하는 데 도움이 된다고 본 것입니다.
Meta의 이런 생각은 우연이 아닙니다. ChatGPT의 등장 이후, AI 서비스 이용률이 매우 높아지면서 추론 비용을 절감하려는 시도가 이어졌는데요. AI 서비스가 점차 보편화되면서 연구 관점도 달라진 것입니다.
2) 누구나 사용할 수 있는 오픈 소스
Meta는 LLaMA 이전부터 AI 민주화에 관심이 많았습니다. 소수 언어 사용자를 위한 번역 모델을 개발하거나, 자체적으로 개발한 거대 언어 모델을 오픈 소스로 공개했던 적도 있습니다. (물론, 성능은 아쉽다는 평이 지배적이었습니다.)
LLaMA를 오픈 소스로 공개하기 위해서는 학습 데이터의 저작권 문제도 해결해야 했습니다. Meta의 연구진은 LLaMA의 사전학습을 위해 누구나 접근이 가능한 오픈 소스 데이터를 활용했습니다. 크롤링이 허용된 데이터, arXiv에 게재된 논문, GitHub에 공유된 코드 같은 데이터가 여기에 해당합니다.
오픈 소스 데이터로만 학습했기 때문에 오픈 소스 모델로 배포하는 것이 가능했습니다. 게다가 LLaMA 2는 상업적 이용까지 가능하도록 했습니다. 누구나 LLaMA 모델을 수정해서 배포하고, 돈도 벌 수 있게 된 것입니다.
3) ChatGPT를 위협하는 LLaMA 2-Chat
지난 7월에 공개된 LLaMA 2도 마찬가지입니다. LLaMA 2에서는 채팅 모델(LLaMA 2-Chat)도 같이 공개했는데요. 개인 정보가 담긴 Meta의 데이터도 활용하지 않았고 데이터에 개인에 대한 정보는 제거하려고 노력했다고 밝혔습니다.
LLaMA 모델은 Transformer 기반의 아키텍처를 약간 수정한 정도에 불과합니다. LLaMA 2도 모델의 구조에는 큰 차이는 없으나 학습 방식을 조금 더 개선했습니다.
1.
LLaMA보다 더 40% 더 많은 데이터를 활용했고
2.
입력 받는 Context의 길이를 2배 길게 했으며
3.
Grouped-Query Attention(GQA)를 활용하여 추론 성능을 개선했습니다.
LLaMA 2-Chat을 공개하면서 답변 생성 방식도 제안했는데요. SFT(Supervised Fine-tuning), RLHF, GhostAttention 등 이와 관련된 자세한 정보는 딥 다이브 블로그에서 확인해주세요!
LLaMA 2-Chat의 성능이 뛰어나다고 하지만 아직 ChatGPT를 뛰어넘기는 어려워 보입니다. 그러나 둘을 같은 선상에 놓고 비교하는 것은 무리입니다. 범용적인 목적으로 학습된 ChatGPT와 다르게 LLaMA는 성능을 어느 정도로 유지하면서 각 사용자의 목적에 맞게 활용할 수 있도록 배포한 것입니다. 즉, 기업이나 연구자들은 공개된 LLaMA를 그대로 활용하기보다는 파인 튜닝(Fine-tuning)을 거쳐 그들만의 챗봇을 구축하도록 한 것입니다. 그렇다면 ChatGPT에 비해 LLaMA가 갖는 장점은 무엇일까요? 왜 성능이 뛰어난 ChatGPT를 두고 LLaMA에 주목하는 것일까요?
앞서 설명한 것처럼 LLaMA와 같이 파라미터가 적은 모델은 학습과 추론(Inference) 비용을 낮출 수 있다는 큰 장점을 가지고 있습니다. 게다가 오픈 소스로 공개되어 있어 기업이 자체적인 챗봇 모델을 보유할 수 있습니다. 추가적인 학습을 진행하더라도 다른 서버에 민감한 정보를 넘길 필요가 없습니다.
앞으로 학습 방법이 간단해지고 일부 데이터만으로도 뛰어난 성능을 보인다면 누구나 쉽게 자신만의 챗봇을 만들 수 있을 것입니다. 예를 들면, 본인의 카카오톡 데이터를 학습시켜서 자기처럼 대화하는 챗봇이라든가, 학습자료를 학습시켜 공부를 도와주는 챗봇처럼요. LLaMA는 그 첫걸음입니다.

 deep daiv. 새로운 글

Humans of daiv. #2 강돈혁

여러분은 인생의 터닝 포인트를 맞이한 적이 있나요? 삶의 매 순간은 도전이지만 돌이켜보면 유독 기억에 남는 순간들이 있습니다. 그리고 그런 순간들이 모여 새로운 하루를 만들어 낸다고 생각해요. 딥 다이브 활동을 인생의 터닝 포인트로 맞아, AI 세계에 딥 다이브하고 있는 강돈혁을 만나 근황을 물어봤습니다.
문의사항 manager@deepdaiv.com