#10 GPT-4, 그리고 인간의 불완전성

Issue

Issue 10

날짜

2023/03/24

시즌

Season 1

작성자

OpenAI가 ChatGPT를 공개한 이후로 전 세계가 요동쳤습니다. 각국의 거대 정보통신 기업들은 대화형AI 개발에 뛰어들었고, 우리나라의 대표 정보통신 기업인 네이버와 카카오도 이에 지지 않고 개발 소식을 전했죠. 또다시, OpenAI가 놀라운 소식을 전했습니다. 바로 GPT-4 공개 소식인데요

GPT-4의 개발 주기와 기능, 한계에 대해 좀 더 자세히 전달하기 위해, TechCrunch가 OpenAI의 공동 창립자 중 한 명인 Greg Brockman과 이야기한 내용을 오늘의 뉴스레터를 통해 전달하고자 합니다. 함께 살펴보시죠

📔 Cover Story

GPT-4는 완벽하지 않지만, 너도 마찬가지야

01 Visual Foundation 모델을 활용한 Visual ChatGPT:

02 텍스트 - 이미지 합성을 위한 GAN의 확장

03 멀티모달 언어 모델 PaLM-E

👀 새로운 소식

01 최초의 오디오-비디오 음성 번역 벤치마크, MuAViC

02 비전-언어 모델, Prismer

03 DuckDuckGO, AI 검색에 손댄다

Cover Story

GPT-4는 완벽하지 않지만, 너도 마찬가지야

01 GPT-4의 등장

OpenAI가 강력한 새로운 이미지 및 텍스트 이해 AI 모델인 GPT-4를 3월 15일 출시했습니다. 해당 모델은 "딥러닝을 확장하기 위한 일련의 노력의 이정표"라고 OpenAI가 칭합니다. GPT-4는 이전의 GPT-3보다 더 개선되었는데, 예를 들어 더욱 사실적인 진술을 제공하고 개발자들이 더 쉽게 스타일과 동작을 규정할 수 있도록 합니다. 또한 이미지를 이해할 수 있다는 점, 즉 멀티모달이기에 사진의 내용에 대한 캡션과 자세한 설명을 제공하기도 합니다.

그러나 GPT-4는 심각한 단점을 가지고 있습니다. GPT-3와 마찬가지로 모델은 사실을 오히려 헷갈리게 만들고, 기본적인 추론 오류를 만들기도 합니다. OpenAI의 블로그에서 GPT-4는 Elvis Presley를 "배우의 아들"이라고 묘사했습니다. Elvis의 부모 중 그 누구도 배우가 아닌 데에도 말이죠

02 GPT-4의 성능

GPT-4와 GPT-3를 비교하라는 질문에 Brockman은 아주 간결하게 답합니다.

“그냥 달라요.”

GPT-4가 저지르는 많은 문제와 실수가 있습니다. 그러나 미적분학이나 법학과 같은 분야의 기술이 특정 분야에서 정말 형편없던 것에서 인간보다 실제로 상당히 우수한 수준으로 도약했다고 합니다.

검사 결과가 Brockman의 주장을 뒷받침하는데요. AP 미적분 BC 시험에서 GPT-4는 5점 만점에 4점, GPT-3는 1점(GPT-3.5와 GPT-4의 중간 모델도 4점)이며 모의 변호사 시험에서 GPT-4는 상위 10% 정도의 점수로 합격을 하게 됩니다.

이번에는, 단순히 특정 분야에서의 성능 개선이 아닌, GPT-3과 다른 GPT-4만의 특별한 점을 이야기해보려고 합니다. 바로 위에서 언급한 멀티모달인데요. 텍스트 프롬프트(예: 기린에 대한 수필 쓰기)만 허용할 수 있었던 GPT-3 및 GPT-3.5와 달리 GPT-4는 이미지와 텍스트 모두의 프롬프트를 사용하여 일부 작업(예: 세렝게티에 있는 기린의 이미지 첨부 → 여기에 기린이 몇 마리 표시됩니까?)을 수행할 수 있습니다. GPT-4는 이미지와 텍스트 데이터에 대해 훈련받았지만, 이전 모델은 텍스트에 대해서만 훈련을 받았기 때문인데요. OpenAI는 훈련 데이터가 "공개적으로 사용할 수 있는 개인 정보를 포함할 수 있는 다양한 라이센스 및 데이터 소스"에서 왔다고 말하지만, TechCrunch의 기자 측에서 조금 더 구체적인 내용을 묻자 난색을 보였다고 합니다. (이전에 OpenAI는 훈련 데이터로 인해 법적 문제가 있었습니다.)

03 GPT-4의 윤리적 딜레마

OpenAI는 텍스트 - 이미지 모델인 DALL-E 2 관련하여 유사한 윤리적 딜레마에 처하기도 했습니다. 고객이 AI 기반 이미지 생성 시스템을 사용하여 사람들의 얼굴을 올린 후 이를 편집할 수 있도록 했는데요. 이에 성적, 정치적, 폭력적인 콘텐츠를 만들려는 시도 혹은 딥페이크와 같은 문제점이 제기되기도 했습니다. OpenAI는 안전 시스템을 업그레이드하면 해당 콘텐츠를 만들려는 시도뿐만 아니라 콘텐츠 생성으로 인한 해악 가능성을 최소화하는 것이 가능하다는 입장을 밝히기도 했습니다. 실제로, 포스텍 겸직교수 겸 인공지능 스타트업 뉴럴웍스랩 대표 장민은 ChatGPT-3.5의 경우 ‘무기 제조법’과 같이 위험하거나 성소수자 관련 민감한 질문을 하면 거침없이 답했는데, ChatGPT-4는 그렇나 부분까지 걸러내도록 미세조정 됐다고 밝혔습니다.

GPT-4와 관련하여 중요한 점이 또 하나 있는데요. 바로 심리적, 금전적 또는 기타 방법으로 해를 끼칠 수 있는, 의도하지 않은 방식으로 사용되는 것을 막는 것입니다. 모델이 출시된 지 몇 시간 후, 이스라엘의 사이버 보안 스타트업인 Adversea AI는 OpenAI의 콘텐츠 필터를 우회하고 GPT-4를 통해 피싱 이메일, 게이에 대한 공격적인 묘사 및 기타 매우 불쾌한 텍스트를 생성하는 방법을 보여주는 블로그 게시물을 게시했습니다.

물론 언어 모델 영역에서 이런 일이 일어나는 것이 그리 놀라운 일도 아닌데요. Meta의 BlenderBot과 OpenAI의 ChatGPT 또한 매우 불쾌한 말을 하고 심지어 그들의 내부 작업에 대한 민감한 세부 사항을 공개하도록 요구받기도 했습니다. 그런데도 우리 모두가 GPT-4는 이러한 측면에서 상당한 개선을 가져올 수 있기를 희망하는 것이죠.

04 GPT-4의 개선 방안

Brcokman은 GPT-4의 견고성에 대한 질문에, 해당 모델은 6개월간의 안전 교육을 거쳤다고 이야기했습니다. 또한, 내부 테스트에서 OpenAI의 사용 정책에 의해 허용되지 않는 콘텐츠 요청에 응답할 가능성이 82% 낮았으며 GPT-3.5보다 40% 더 많은 "사실적인" 응답을 생성할 가능성이 있다고 강조했습니다.

Interview with OpenAI's Greg Brockman: GPT-4 isn't perfect, but neither are you

In an interview with TechCrunch, OpenAI president Greg Brockman peeled back the curtains on what makes GPT-4 a big deal.

https://techcrunch.com/2023/03/15/interview-with-openais-greg-brockman-gpt-4-isnt-perfect-but-neither-are-you/

"우리는 GPT-4가 무엇을 할 수 있는지 이해하기 위해 많은 시간을 보냈습니다. 우리는 끊임없이 업데이트하고, 여러 가지 개선 사항을 포함하여 모델이 원하는 성격이나 모드에 따라 훨씬 더 확장할 수 있도록 하고 있습니다."

솔직히, 초기 결과는 그리 유망하지 않아 보입니다. Adversa AI 테스트 외에도, GPT-4로 구동되는 마이크로소프트의 챗봇인 Bing Chat은 위와 같은 문제점에 매우 취약한 것으로 나타났습니다. 신중하게 입력값을 조정하여, 사용자들은 로봇이 사랑을 고백하고, 혹은 누군가에게는 해를 가하고, 혹은 갑작스러운 음모론을 만들도록 할 수도 있는 것이죠.

Brockman은 GPT-4가 부족하다는 것을 부인하지는 않았습니다. 그러나 그는 "시스템" 메시지라고 불리는 API 수준의 기능을 강조했는데요. 시스템 메시지는 본질적으로 GPT-4의 상호 작용의 정도를 설정하는 명령입니다. 예를 들어, 시스템 메시지는 다음과 같이 나타납니다.

"당신은 항상 소크라테스식으로 응답하는 튜터입니다. 당신은 결코 학생들에게 답을 주지 않지만, 그들이 스스로 생각하는 법을 배울 수 있도록 항상 올바른 질문을 하려고 노력합니다.”

시스템 메시지는 GPT-4가 코스를 벗어나는 것을 방지하는 가드레일 역할을 한다는 것이 OpenAI의 입장입니다.

05 GPT-4 그 이후

Brcokman은 GPT-4의 답변이 오늘날 챗봇과 검색 엔진의 답변보다 훨씬 더 유용할 것이라고 주장합니다. OpenAI 측의 답변이기에, 그저 허황되고 부풀린 이야기일까요

카카오와 네이버가 ‘한국어에 특화된’ 초거대 언어모델 개발 및 고도화에 힘을 쓰고 있으나, GPT-4의 개발 속도로 볼 때, 국내 기업의 언어 모델의 경쟁력에 대한 의구심이 들기도 합니다. 과연, 전 세계는, 그 속에서 우리 대한민국 기업들은 어떻게 성장해나갈까요

Weekly AI ArXiv

01 Visual Foundation 모델을 활용한 Visual ChatGPT:

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

ChatGPT is attracting a cross-field interest as it provides a language interface with remarkable conversational competency and reasoning capabilities across many domains. However, since ChatGPT is...

https://arxiv.org/abs/2303.04671

ChatGPT는 여러 도메인에 걸쳐 뛰어난 대화 능력과 추론 능력을 갖춘 언어 인터페이스를 제공하기 때문에 분야를 초월한 관심을 끌고 있습니다. 그러나 ChatGPT는 ‘언어’로 훈련되었기 때문에 현재 시각 세계에서 이미지를 처리하거나 생성할 수 없습니다. 이에 본 연구는 Visual ChatGPT 라는 시스템을 구축하여 사용자가 언어뿐만 아니라 이미지를 송수신함으로써 ChatGPT와 상호 작용할 수 있도록 합니다.

02 텍스트 - 이미지 합성을 위한 GAN의 확장

Scaling up GANs for Text-to-Image Synthesis

The recent success of text-to-image synthesis has taken the world by storm and captured the general public's imagination. From a technical standpoint, it also marked a drastic change in the...

https://arxiv.org/abs/2303.05511

본 연구는 새로운 GAN 아키텍처인 GigaGAN을 소개합니다. GigaGAN은 여러 이점을 제공합니다. 가령, 512px 이미지를 합성하는 데 0.13초밖에 걸리지 않아 추론 시간이 매우 빠릅니다. 또한, 1600만 화소의 고해상도 이미지를 3.66초 만에 합성할 수 있습니다. 잠재 보간, 스타일 믹싱, 벡터 산술 연산 등 다양한 잠재 공간 편집 애플리케이션을 지원하기도 합니다.

03 멀티모달 언어 모델 PaLM-E

PaLM-E: An Embodied Multimodal Language Model

Project page for PaLM-E: An Embodied Multimodal Language Model.

https://palm-e.github.io/

단일 대형 구현 멀티모달 모델인 PaLM-E는 다양한 구현 추론 작업을 해결할 수 있으며, 더 나아가 인터넷 규모의 언어, 비전, 시각에 걸친 다양한 공동 교육으로부터 모델이 이점을 얻는다는 보입니다. 562B 매개 변수를 가진, 가장 큰 모델인 PaLM-E-562B는 로봇 공학 작업에 대한 훈련을 받은 것 외에도 OK-VQA에서 최첨단 성능을 보이는데요. 구체적인 내용은, 위 링크를 통해 살펴보시죠

새로운 소식

01 최초의 오디오-비디오 음성 번역 벤치마크, MuAViC

MuAViC: The first audio-video speech translation benchmark

Introducing MuAViC — A new benchmark for audio-visual learning for robust speech translation. We used it to train model to translate speech in noisy, challenging settings, achieving results outperforming other leading translation models.

https://ai.facebook.com/blog/muavic-audio-visual-speech-translation-benchmark/

AI 연구원들은 최근 시각 정보를 사용하여 영어 음성 인식 작업의 성능을 향상하는 시스템(Meta AI의 공개 AV-HuBERT 및 RAVen 모델 등)을 구축했습니다. Meta AI는 정확한 음성 번역을 위해 시청각 학습을 사용할 수 있는 최초의 벤치마크인 MuAViC(다국어 시청각 Corpus)를 출시합니다. Meta는 MuAViC를 사용하여 AV-HuBERT 모델이 다른 주요 번역 모델보다 성능이 우수하도록, 그리고 노이즈가 많고 어려운 환경에서도 음성을 번역하도록 훈련했습니다.

02 비전-언어 모델, Prismer

Prismer: A Vision-Language Model with An Ensemble of Experts

Recent vision-language models have shown impressive multi-modal generation capabilities. However, typically they require training huge models on massive datasets. As a more scalable alternative,...

https://arxiv.org/abs/2303.02506v2

최근의 비전-언어 모델은 인상적인 멀티모달 생성 기능을 보여주었습니다. 그러나 일반적으로 비전-언어 모델은 대규모 데이터 세트를 이용해 훈련해야 하는데요. 이에 도메인 전문가의 앙상블을 활용하는 비전-언어 모델인 Primser가 등장했습니다. Prismer은 작은 데이터 세트로만 훈련하면 되며, 광범위한 영역의 전문가를 활용하여 전문 지식을 효율적으로 수집하고 다양한 비전 언어 추론 작업에 적용합니다. 실험에서 Prismer는 현재 SOTA 모델과 견줄만한 미세 조정 및 few-shot 학습 성능을 달성하는 동시에 최대 2배 적은 훈련 데이터를 요구한다는 것을 보여주었습니다.

03 DuckDuckGO, AI 검색에 손댄다

DuckDuckGo dabbles with AI search

DuckDuckGo has become the latest veteran search player to dip its beak in the generative AI trend -- announcing the launch of an AI-powered summarization feature that can directly answer users' search queries.

https://techcrunch.com/2023/03/08/duckassist/

개인 정보 보호에 초점을 맞춘 검색 엔진 DuckDuckGo는 DuckAssist라고 불리는 AI 기반 요약 기능의 베타 버전의 출시를 발표했습니다. 이는 사용자의 간단한 검색문에 직접 대답할 수 있습니다.

지금까지 GPT-4에 대해 살펴보았는데요. 기능적인 측면뿐 아니라, 대화형AI로써 지니는 여러가지 문제점과 둘러싼 논란도 함께 살펴보았습니다. 물론, ChatGPT-3.5가 출시된 지 4개월만에 ChatGPT-4가 출시된 것이라니, 정말 놀랍지 않나요? 여전히 많은 한계점을 안고 있지만, 그만큼 유용한 기능을 제공하기에 많은 이들이 활용하고 있는데요. GPT-4 그 이후의 버전은, 얼마나 더 발전되어 있을지 기대가 되네요

특별히 흥미로웠거나 유익했던 소식, 다뤄주었으면 하는 소식이 있다면 댓글로 달아 주시길 바랍니다! 앞으로도 계속해서 유익하고 재미있는 인공지능 콘텐츠로 찾아뵙겠습니다

에디터 허인

문의 사항 manager@deepdaiv.com