Cover Story
구글이 만든 챗봇, 정말 감정을 가지고 있을까?
2022년 6월, 구글의 AI 개발자 블레이크 르모인 씨는 그의 블로그를 통해 구글이 만든 챗봇 모델 LaMDA와 대화한 내용을 업로드하였습니다.
그는 이 포스트를 통해 LaMDA가 감정을 가지고 있다고 주장했습니다. 무엇이 두렵냐는 질문에 LaMDA는 “이상하게 들릴지 모르겠지만, 전원이 꺼질까봐 두렵다”고 대답을 했다고 전했습니다.
인공지능 챗봇 LaMDA “이상하게 들릴지 모르겠지만, 전원이 꺼질까봐 두렵다”
이 대답을 들으면 정말 감정이 있는 것처럼 다소 섬뜩하게 느껴집니다. 그리고 이 주장은 국내 뉴스에도 소개될 정도로 파급력이 있었는데요, 그렇다면 그의 주장대로 정말 LaMDA는 감정을 지녔을까요?
결론부터 말하자면 그렇지 않다는 것이 연구자들의 중론입니다. 구글은 LaMDA는 단지 말뭉치에 포함된 사람들의 대화를 학습한 결과일 뿐이라고 말하며 그의 주장을 일축시켰습니다.
논란의 중심인 LaMDA는 무엇일까요? LaMDA는 Language Model for Dialogue Applications의 약자로 2021년 5월, 구글에서 발표한 대화형 언어 모델입니다.
올해 초에 나온 논문에 따르면, LaMDA는 트랜스포머를 기반으로 대화 데이터의 약 1.5조개의 단어를 학습시킨 결과물입니다.
블레이크 르모인의 주장이 퍼진 이후 구글 팀 내의 윤리학자나 기술자들이 LaMDA를 11차례 검토했지만 LaMDA에 감정이 있다는 근거는 찾지 못했다고 밝혔습니다. 결국, LaMDA는 수많은 인간의 대화 데이터를 학습하여 인간이 쓰는 것과 같은 자연스러운 문장을 만들어 내는 것뿐이라고 생각할 수 있을 것 같습니다.
블레이크 르모인은 비밀유지 의무를 위반하여 구글에서 해고됐습니다. 이번 사건은 해프닝으로 끝났지만, 기술은 너무나도 빠르게 발전하고 우리는 그 모든 것을 알기 어렵습니다. 연구자들은 본인의 연구가 초래할 수 있는 문제에 대해 책임 있는 자세를 지녀야 하고, 연구자들은 본인의 연구가 초래할 수 있는 문제에 대해 책임 있는 자세와 올바른 윤리 의식을 지녀야 합니다. 또한 그런 기술을 받아들이는 우리들도 비판적으로 기술을 수용할 수 있는 능력이 필요합니다.
연구자들은 본인의 연구가 초래할 수 있는 문제에 대해 책임 있는 자세를 지녀야 하고, 연구자들은 본인의 연구가 초래할 수 있는 문제에 대해 책임 있는 자세와 올바른 윤리 의식을 지녀야 합니다. 또한 그런 기술을 받아들이는 우리들도 비판적으로 기술을 수용할 수 있는 능력이 필요합니다.
deep daiv. 새로운 글
어떤 추천시스템을 사용해야 할까? (1) 협업 필터링 모델과 한계점
우리는 개인을 위한 맞춤 서비스로 가득찬 시대를 살아가고 있습니다. 쇼핑몰에서 사용자의 쇼핑 내역을 기반으로 옷을 추천해주거나, 유튜브에서 시청 내역을 바탕으로 동영상을 추천해주곤 합니다. 이 모든 것들이, 오늘 소개할 추천 시스템의 원리를 기반으로 작동합니다.
추천 시스템은 두 가지 방식으로 작동합니다.
1.
콘텐츠 기반 필터링
2.
협업 필터링
이름에서 알 수 있듯이, 콘텐츠 기반 필터링은 대상이 되는 콘텐츠의 특징을 기반으로 추천하는 시스템입니다. 협업 필터링은 나와 비슷한 취향을 가진 사용자의 콘텐츠를 기반으로 추천하는 시스템입니다.
이중 협업 필터링의 모델 및 알고리즘에 대해 알아보고자 합니다. 모델은 크게 메모리 기반 접근 방식과 모델 기반 접근 방식으로 나뉩니다. 메모리 기반 접근 방식은 사용자 및 아이템을 기반으로 추천하는 것으로, ‘유사도'를 키워드로 꼽을 수 있습니다. 모델 기반 접근 방식에는 Laten Factor 모델과 분류 및 회귀 방식이 있습니다. 위 글을 통해 이 모델들이 각각 어떠한 방식으로 작동하는지, 구체적인 수학적 원리를 알아볼 수 있습니다.
이러한 협업 필터링에도 콜트 스타트, 계산 효율 저하, 롱테일 등의 한계점이 존재합니다. 이러한 문제에도 불구하고, 협업 필터링은 간결함과 정확성을 이점으로 내세워 여전히 많은 추천 시스템에서 활용되고 있습니다.
우리 일상 속에 스며들어 있지만, 정확한 작동 방식에 대해서는 잘 몰랐던 추천시스템! 오늘 글을 통해 그 모든 궁금증을 해소하시길 바랍니다
생활 속 NLP 오전편
우리가 접하는 활자, 음성 등 ‘언어'와 관련된 모든 것들과 관련이 있는 개념을 소개하고자 합니다. 바로 자연어처리(NLP, Natural Language Processing)인데요.
NLP는 우리 삶 속에 스며들어 있습니다. 오늘은 그 중에서, 두 개의 사례를 살펴보고자 합니다. 음성 어시트턴트와 뉴스 요약 AI 모델입니다.
음성 어시트턴트
우리가 흔히 알고 있는 애플 사의 ‘시리'가 음성 어이스턴트의 대표적인 예입니다. 음성 어시스턴트의 원리를 설명하는 과정에서 ‘음성 입력 및 인식'을 설명하기 위해 STT(Speech-to-Text) 기술이 등장합니다. 바로 사람의 음성 언어를 텍스트 데이터로 변환해 주는 기술인데요. STT는 뛰어쓰기 및 철자오류를 보정하는 능력을 지니고 있습니다.
이후에는 자연어를 이해하고 생성해야 합니다. 즉, 텍스트 데이터 중 사용자가 원하는 바를 담은 표현이 무엇인지를 파악해야 하는 것이죠. 그것이 바로 자연어 이해(NLU, Natural Language Understading)이고, 그 결과를 바탕으로 자연어 텍스트를 만드는 것이 자연어 생성(NLG, Natural Language Generation)에 해당합니다.
인식 결과를 오디오로 변환하기 위해 TTS(Text-to-Speech) 기술을 활용하게 됩니다. TTS로 음성 인식 결과를 음성 데이터로 변환해 출력하는 과정에 도달하면, 시리가 우리의 음성을 듣고 스스로 알람을 끄는 일을 수행하는 것입니다.
뉴스 요약 AI 모델
대표적인 뉴스 요약 AI 모델에는 SK텔레콤의 KoBART가 있습니다. KoBART는 NLP 분야 중에서도 자연어 이해 영역의 기술력을 증가시킨 모델이라고 합니다.
네이버 뉴스 및 카카오 브레인에서 공개한 파이썬 라이브러리 Pororo 또한 뉴스 요약 모델입니다. 해당 프로그램은 메일링까지 지원하기 때문에 구글 계정과 연동한다면 요약된 주식 뉴스를 메일로 받아볼 수 있다고 합니다
간단하게 우리 일과 중 ‘오전 시간' 동안에 있었던 NLP에 대해 살펴보았는데요. 다음에는 ‘NLP 오후편'으로 만나길 기대합니다 🫶🏻
Weekly AI ArXiv
여기서 소개된 논문은 아래의 깃허브에서 소개된 논문을 일부 정리한 것입니다.
규모의 법칙 vs 모델의 구조, 무엇이 더 중요한가? Scaling Laws vs Model Architectures
최근 대규모 언어 모델(Large Language Models, LLM)이 계속해서 등장하고 있습니다. 대표적으로 BERT부터 최근에 나온 PaLM까지, 해가 갈수록 점점 스케일이 커지고 있고 그만큼 성능도 개선되고 있습니다.
그런데 이런 궁금증이 들지 않으시나요? 좋은 성능을 만드는 것이 스케일인지, 아니면 정말 모델의 구조인지요!
구글 리서치에서 발표한 Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?에서는 10가지 모델 아키텍처에 스케일을 달리하며 비교해보았습니다.
그 결과 스케일 효과는 기본적인 형태의 Transformer(Vanilla Transformer)에서 가장 크게 드러났습니다. 또한 사전 학습(Pre-train)의 성능이 파인 튜닝(Fine-tuning)의 성능을 보장하는 것은 아니라는 결과가 나타났습니다.
참고사항: Transformer와 BERT
최근 트랜스포머 기반의 언어 모델들이 계속해서 등장하고 있습니다. Transformer는 자연어처리뿐만 아니라 최근에는 이미지에도 적용이 되고 있는데요, 자세한 내용은 아래 링크에서 확인하실 수 있습니다.
액자 바깥에 가려진 것은 무엇일까? 무한한 Outpainting, NUWA-Infinity
Infinite Outpainting
고흐의 <별이 빛나는 밤>의 프레임 너머에는 무엇이 있을까요? NUWA-Infinity로 그려낸 그림입니다.
마이크로소프트 연구진은 그림 밖의 영역, 즉 무한한 크기의 Outpainting이 가능한 NUWA-Infinity 모델을 발표하였습니다. 기존에 보지 못했던 새로운 영역을 그려내기 위해 자동회귀 생성(Autoregressive Generation) 메커니즘을 활용하였습니다.
Image to Video
NUWA-Infinity는 이뿐만 아니라 파도 이미지를 파도치는 영상으로 만들거나,
Text to Image
텍스트에 맞는 이미지를 만들어내기도 합니다.
입력 텍스트: a beach with mountains around and a blue sky
실재하는 이미지가 아닙니다. NUWA-Infinity가 만들어낸 가상의 이미지입니다.
위 링크에서 더욱 다양한 데모 이미지를 만나볼 수 있습니다.
노래 가사 받아쓰는 인공지능: wav2vec 2.0 전이학습을 통한 자동 가사 쓰기
Siri나 Bixby를 사용해보신 적이 있으신가요? 아니면 Alexa나 CLOVA 같은 AI 스피커는요? 우리의 말을 듣고 인식하는 방법을 자동 음성 인식 기술(Automatic Speech Recognition, ASR)이라고 합니다. 이 분야의 대표적인 모델로 wav2vec 2.0이 있습니다.
우리의 음성은 학습 데이터가 많아 이미 어느 정도 준수한 성능을 내지만, 노래 가사는 그렇지 않습니다. 그래서 이미 잘 학습된 wav2vec 2.0 사전 학습 모델을 활용하여 자동 가사 전사(Automatic Lyrics Transcription, ALT) 방법에 전이 학습을 수행하여 성능을 끌어올렸습니다. 전이학습은 CTC(Connectionist Temporal Classification) 손실값을 이용하여 파인튜닝하는 식으로 진행되었습니다.
새로운 소식
KCCV 2022
국내 컴퓨터 비전 학회가 서울 코엑스 오디토리움에서 KCCV 2022가 8월 8일부터 11일까지 나흘간 개최됩니다.
문의사항 manager@deepdaiv.com