Cover Story
ChatGPT 이후 언어 모델은 어떻게 달라졌나
지난해 11월 말, ChatGPT의 등장 이후 AI 챗봇에 대한 관심이 뜨거웠습니다. 교육, 언론, 정치, 사회 가릴 것 없이 ChatGPT에 대해 언급하면서 그것의 뛰어난 성능과 위험성을 동시에 조명했고, 기업들은 패러다임 전환에 발맞춰 새로운 서비스를 개발하기 시작했습니다.
현재 ChatGPT를 개발한 OpenAI는 독보적인 기술력으로 AI 시장을 선도하고 있습니다. 사용자들의 프롬프트 및 피드백을 기반으로 ChatGPT 서비스를 개선해왔고, 지난 5월에는 GPT-4를 선보이며 한층 더 진화한 ChatGPT를 만들었습니다.
Bard로 정면 승부를 택한 Google
마음이 급해진 Google은 Bard를 내놓습니다. 그러나 지난 2월에 데모로 공개한 Bard가 잘못된 답변을 내놓았다는 논란에 빠지며 주가가 폭락합니다. Bard는 지난 5월 정식 서비스를 오픈하면서 이러한 문제점들을 개선했습니다. ChatGPT와 차별화하여 최근 소식을 답할 수 있고, 적절한 이미지 검색 결과도 같이 보여줍니다.
그러나 성능은 ChatGPT에 미치지 못하며 여전히 뚜렷한 반전은 보여주지 못하고 있는 상황입니다. Google은 쇄신을 위해 지난 4월 DeepMind와 Google Brain 팀을 병합했는데요. 지난 6월 말에는 전 DeepMind의 CEO였던 데미스 하사비스가 ChatGPT를 능가하는 Gemini를 선보이겠다고 밝혔습니다. DeepMind답게 강화학습 기반의 새로운 학습 방법을 선보일 것으로 예상하고 있어 기대감이 큽니다.
LLaMA로 틈새 시장을 겨냥한 Meta
사실 이번 아티클의 핵심은 Meta입니다. Google과 마찬가지로 Meta도 OPT라는 LLM을 개발했고, 대화 기능을 추가하여 BlenderBot 3를 선보였습니다. 처음 들어보신다고요? 이미 결과가 보여주듯 좋은 성과를 얻지는 못했습니다.
Meta는 Google과 달리 자체적인 챗봇을 선보이기보다 언어 모델을 겨냥했습니다. ChatGPT가 등장하면서 언어 모델 자체에 대한 관심도 높아졌는데요. 많은 기업과 연구소들은 언어 모델을 원했지만 ChatGPT만큼 뛰어난 언어 모델을 구축하기 위해서는 막대한 인프라 투자가 필요하고, 많은 시간과 비용이 들기 때문에 섣불리 나설 수 없었습니다. Meta는 이 지점을 파고 들어 누구나 학습시키고 활용할 수 있는, 경량화된 언어 모델 LLaMA를 공개했습니다.
경량화된 언어 모델이 무엇인가요?
경량화란 일반적으로 성능은 유지하면서 적은 학습 파라미터를 갖도록 개발하는 과정을 의미합니다. 말 그대로 모델을 가볍게 하는 것입니다. LLaMA는 13B(130억 개)의 파라미터만으로도 175B(1750억 개)의 파라미터를 가진 GPT-3의 성능을 뛰어넘었습니다. 보통 파라미터가 많을수록 좋은 성능을 보인다고 알려졌습니다. 하지만 LLaMA는 10배 이상 적은 파라미터로 훨씬 좋은 성능을 보이며 모델 경량화에 성공한 것입니다. 파라미터가 적을수록 비용이 줄어들고 학습과 추론 속도가 빨라집니다.
어느 정도인지 감이 안 잡히신다고요? LLaMA 13B 모델은 약 100만 원짜리 GPU(RTX 3090) 1개만으로도 파인튜닝(Fine-tuning)이 가능합니다! (물론, 모델을 더 가볍게 만드는 양자화 과정이 필요하기는 하지만요.)
또한 비전, 자연어 등 분야마다 다양한 경량화 방법론이 있다는 것도 참고로 알아두세요!
Meta는 LLaMA를 공개하면서 초기에 연구자들을 대상으로 신청을 받아 연구 목적에 한해 모델을 무료로 제공했습니다. 그러나 얼마 지나지 않아 모델이 유출되는 사태가 발생했습니다. 손 쓸 수 없을 만큼 빠르게 퍼지면서 사실상 모두에게 모델이 공개되어버렸는데요. 독이 될 줄 알았던 유출 사태가 오히려 Meta에게 새로운 기회로 찾아옵니다. LLaMA를 기점으로 LLM의 경량화 열풍이 불게 된 것입니다. 이제는 누가 더 적은 파라미터로 뛰어난 성능을 내놓는지 승부하고 있는 것이지요.
이후에 각 연구소에서는 라마(LLaMA)의 친구들인 알파카(Alpaca), 비쿠냐(Vicuna) 모델을 공개했습니다. 모두 LLaMA를 기반으로 성능을 개선한 언어 모델입니다. 그밖에도 언어 모델에 추가적으로 학습하여 특정 목적에 맞는 언어 모델들을 개발하기도 합니다. 그렇게 LLaMA의 성능이 입증되자 정식 오픈 소스로 공개해달라, 상업적 이용이 가능하게 해달라는 요청이 빗발칩니다.
Meta는 이에 강경한 입장을 보이다가 결국 지난 7월 18일, 정식으로 상업적 이용이 가능한 LLaMA 2를 공개했습니다. 기업과 연구소 입장에서는 새로운 길이 열린 것입니다. 조금만 투자한다면 이제 누구나 언어 모델을 개발할 수 있고, 새로운 사업도 가능합니다.
요약하면, ChatGPT 이후 언어 모델의 개발 흐름은 크게 1. ChatGPT와 정면 승부, 자체 LLM 개발과 2. 틈새시장 겨냥, 경량화된 LLM 개발로 구분할 수 있습니다. 자체적인 LLM을 구축하기 어렵기 때문에 많은 연구진과 기업들이 LLaMA에 주목하고 있는 상황인데요. 그렇다면 적은 파라미터를 가진 LLaMA는 어떻게 똑똑해질 수 있었을까요? 다음주 아티클에서는 LLaMA의 논문을 직접 살펴보면서 LLaMA의 경량화 전략과 LLaMA 2의 학습 방법에 대해 살펴보도록 하겠습니다.
deep daiv. 새로운 글
Humans of daiv. #1 강다은
지금까지 많은 사람들이 다이브를 거쳐 갔습니다. 1년 반이 넘는 시간 동안 약 100여 명의 팀원들이 수료했습니다. 지금의 다이브 성장이 가능했던 것은 초창기 팀원들과 운영진들의 보이지 않는 노력이 있었기 때문입니다. 첫 기수에서 운영진으로 활동하며 많은 공을 세운 강다은 팀원을 만나 근황을 물어보았습니다.
문의사항 manager@deepdaiv.com