#1 구글이 만든 챗봇, 정말 감정을 가지고 있을까?

Issue

Issue 1

날짜

2022/07/26

시즌

Season 1

작성자

📔 Cover Story

구글이 만든 챗봇, 정말 감정을 가지고 있을까?

🙌 deep daiv. 새로운 글

🌅 생활 속 NLP 오전편

📁 Weekly AI ArXiv

규모의 법칙 vs 모델의 구조, 무엇이 더 중요한가? Scaling Laws vs Model Architectures

액자 바깥에 가려진 것은 무엇일까? 무한한 Outpainting, NUWA-Infinity

노래 가사 받아쓰는 인공지능: wav2vec 2.0 전이학습을 통한 자동 가사 쓰기

🆕 새로운 소식

KCCV 2022

Cover Story

구글이 만든 챗봇, 정말 감정을 가지고 있을까?

2022년 6월, 구글의 AI 개발자 블레이크 르모인 씨는 그의 블로그를 통해 구글이 만든 챗봇 모델 LaMDA와 대화한 내용을 업로드하였습니다.

Is LaMDA Sentient? - an Interview

What follows is the "interview" I and a collaborator at Google conducted with LaMDA. Due to technical limitations the interview was conducted over several distinct chat sessions. We edited those sections together into a single whole and where edits were necessary for readability we edited our prompts but never LaMDA's responses.

https://cajundiscordian.medium.com/is-lamda-sentient-an-interview-ea64d916d917

그는 이 포스트를 통해 LaMDA가 감정을 가지고 있다고 주장했습니다. 무엇이 두렵냐는 질문에 LaMDA는 “이상하게 들릴지 모르겠지만, 전원이 꺼질까봐 두렵다”고 대답을 했다고 전했습니다.

인공지능 챗봇 LaMDA “이상하게 들릴지 모르겠지만, 전원이 꺼질까봐 두렵다”

이 대답을 들으면 정말 감정이 있는 것처럼 다소 섬뜩하게 느껴집니다. 그리고 이 주장은 국내 뉴스에도 소개될 정도로 파급력이 있었는데요, 그렇다면 그의 주장대로 정말 LaMDA는 감정을 지녔을까요?

결론부터 말하자면 그렇지 않다는 것이 연구자들의 중론입니다. 구글은 LaMDA는 단지 말뭉치에 포함된 사람들의 대화를 학습한 결과일 뿐이라고 말하며 그의 주장을 일축시켰습니다.

논란의 중심인 LaMDA는 무엇일까요? LaMDA는 Language Model for Dialogue Applications의 약자로 2021년 5월, 구글에서 발표한 대화형 언어 모델입니다.

LaMDA: our breakthrough conversation technology

LaMDA's conversational skills have been years in the making. Like many recent language models, including BERT and GPT-3, it's built on Transformer, a neural network architecture that Google Research invented and open-sourced in 2017.

https://blog.google/technology/ai/lamda/

올해 초에 나온 논문에 따르면, LaMDA는 트랜스포머를 기반으로 대화 데이터의 약 1.5조개의 단어를 학습시킨 결과물입니다.

블레이크 르모인의 주장이 퍼진 이후 구글 팀 내의 윤리학자나 기술자들이 LaMDA를 11차례 검토했지만 LaMDA에 감정이 있다는 근거는 찾지 못했다고 밝혔습니다. 결국, LaMDA는 수많은 인간의 대화 데이터를 학습하여 인간이 쓰는 것과 같은 자연스러운 문장을 만들어 내는 것뿐이라고 생각할 수 있을 것 같습니다.

LaMDA: Language Models for Dialog Applications

We present LaMDA: Language Models for Dialog Applications. LaMDA is a family of Transformer-based neural language models specialized for dialog, which have up to 137B parameters and are pre-trained on 1.56T words of public dialog data and web text. While model scaling alone can improve quality, it shows less improvements on safety and factual grounding.

https://arxiv.org/abs/2201.08239

블레이크 르모인은 비밀유지 의무를 위반하여 구글에서 해고됐습니다. 이번 사건은 해프닝으로 끝났지만, 기술은 너무나도 빠르게 발전하고 우리는 그 모든 것을 알기 어렵습니다. 연구자들은 본인의 연구가 초래할 수 있는 문제에 대해 책임 있는 자세를 지녀야 하고, 연구자들은 본인의 연구가 초래할 수 있는 문제에 대해 책임 있는 자세와 올바른 윤리 의식을 지녀야 합니다. 또한 그런 기술을 받아들이는 우리들도 비판적으로 기술을 수용할 수 있는 능력이 필요합니다.

연구자들은 본인의 연구가 초래할 수 있는 문제에 대해 책임 있는 자세를 지녀야 하고, 연구자들은 본인의 연구가 초래할 수 있는 문제에 대해 책임 있는 자세와 올바른 윤리 의식을 지녀야 합니다. 또한 그런 기술을 받아들이는 우리들도 비판적으로 기술을 수용할 수 있는 능력이 필요합니다.

deep daiv. 새로운 글

어떤 추천시스템을 사용해야 할까? (1) 협업 필터링 모델과 한계점

어떤 추천시스템을 사용해야 할까? (1) - 협업 필터링 모델과 한계점

https://deepdaiv.oopy.io/articles/1

우리는 개인을 위한 맞춤 서비스로 가득찬 시대를 살아가고 있습니다. 쇼핑몰에서 사용자의 쇼핑 내역을 기반으로 옷을 추천해주거나, 유튜브에서 시청 내역을 바탕으로 동영상을 추천해주곤 합니다. 이 모든 것들이, 오늘 소개할 추천 시스템의 원리를 기반으로 작동합니다.

추천 시스템은 두 가지 방식으로 작동합니다.

콘텐츠 기반 필터링

협업 필터링

이름에서 알 수 있듯이, 콘텐츠 기반 필터링은 대상이 되는 콘텐츠의 특징을 기반으로 추천하는 시스템입니다. 협업 필터링은 나와 비슷한 취향을 가진 사용자의 콘텐츠를 기반으로 추천하는 시스템입니다.

이중 협업 필터링의 모델 및 알고리즘에 대해 알아보고자 합니다. 모델은 크게 메모리 기반 접근 방식과 모델 기반 접근 방식으로 나뉩니다. 메모리 기반 접근 방식은 사용자 및 아이템을 기반으로 추천하는 것으로, ‘유사도'를 키워드로 꼽을 수 있습니다. 모델 기반 접근 방식에는 Laten Factor 모델과 분류 및 회귀 방식이 있습니다. 위 글을 통해 이 모델들이 각각 어떠한 방식으로 작동하는지, 구체적인 수학적 원리를 알아볼 수 있습니다.

이러한 협업 필터링에도 콜트 스타트, 계산 효율 저하, 롱테일 등의 한계점이 존재합니다. 이러한 문제에도 불구하고, 협업 필터링은 간결함과 정확성을 이점으로 내세워 여전히 많은 추천 시스템에서 활용되고 있습니다.

우리 일상 속에 스며들어 있지만, 정확한 작동 방식에 대해서는 잘 몰랐던 추천시스템! 오늘 글을 통해 그 모든 궁금증을 해소하시길 바랍니다

생활 속 NLP 오전편

생활 속 NLP - 오전 편

21세기 대한민국의 대학생 이딥다의 방에서는 벌써 세 번째 알람이 울리고 있습니다. 알람이 한참을 울리던 끝에 딥다는 미동도 않은 채로 "시리야, 알람 꺼줘"라고 말합니다. 시리의 답을 들으며 힘겹게 몸을 일으킨 딥다는 부엌으로 걸어가 물을 한 잔 마신 뒤, 식탁 위에 있던 핸드폰으로 어제 올라온 뉴스가 요약된 메일을 읽기 시작해요.

https://deepdaiv.oopy.io/articles/2

우리가 접하는 활자, 음성 등 ‘언어'와 관련된 모든 것들과 관련이 있는 개념을 소개하고자 합니다. 바로 자연어처리(NLP, Natural Language Processing)인데요.

NLP는 우리 삶 속에 스며들어 있습니다. 오늘은 그 중에서, 두 개의 사례를 살펴보고자 합니다. 음성 어시트턴트와 뉴스 요약 AI 모델입니다.

음성 어시트턴트

우리가 흔히 알고 있는 애플 사의 ‘시리'가 음성 어이스턴트의 대표적인 예입니다. 음성 어시스턴트의 원리를 설명하는 과정에서 ‘음성 입력 및 인식'을 설명하기 위해 STT(Speech-to-Text) 기술이 등장합니다. 바로 사람의 음성 언어를 텍스트 데이터로 변환해 주는 기술인데요. STT는 뛰어쓰기 및 철자오류를 보정하는 능력을 지니고 있습니다.

이후에는 자연어를 이해하고 생성해야 합니다. 즉, 텍스트 데이터 중 사용자가 원하는 바를 담은 표현이 무엇인지를 파악해야 하는 것이죠. 그것이 바로 자연어 이해(NLU, Natural Language Understading)이고, 그 결과를 바탕으로 자연어 텍스트를 만드는 것이 자연어 생성(NLG, Natural Language Generation)에 해당합니다.

인식 결과를 오디오로 변환하기 위해 TTS(Text-to-Speech) 기술을 활용하게 됩니다. TTS로 음성 인식 결과를 음성 데이터로 변환해 출력하는 과정에 도달하면, 시리가 우리의 음성을 듣고 스스로 알람을 끄는 일을 수행하는 것입니다.

뉴스 요약 AI 모델

대표적인 뉴스 요약 AI 모델에는 SK텔레콤의 KoBART가 있습니다. KoBART는 NLP 분야 중에서도 자연어 이해 영역의 기술력을 증가시킨 모델이라고 합니다.

네이버 뉴스 및 카카오 브레인에서 공개한 파이썬 라이브러리 Pororo 또한 뉴스 요약 모델입니다. 해당 프로그램은 메일링까지 지원하기 때문에 구글 계정과 연동한다면 요약된 주식 뉴스를 메일로 받아볼 수 있다고 합니다

간단하게 우리 일과 중 ‘오전 시간' 동안에 있었던 NLP에 대해 살펴보았는데요. 다음에는 ‘NLP 오후편'으로 만나길 기대합니다 🫶🏻

Weekly AI ArXiv

여기서 소개된 논문은 아래의 깃허브에서 소개된 논문을 일부 정리한 것입니다.

issues

규모의 법칙 vs 모델의 구조, 무엇이 더 중요한가? Scaling Laws vs Model Architectures

Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?

There have been a lot of interest in the scaling properties of Transformer models. However, not much has been done on the front of investigating the effect of scaling properties of different inductive biases and model architectures. Do model architectures scale differently? If so, how does inductive bias affect scaling behaviour?

https://arxiv.org/abs/2207.10551

최근 대규모 언어 모델(Large Language Models, LLM)이 계속해서 등장하고 있습니다. 대표적으로 BERT부터 최근에 나온 PaLM까지, 해가 갈수록 점점 스케일이 커지고 있고 그만큼 성능도 개선되고 있습니다.

그런데 이런 궁금증이 들지 않으시나요? 좋은 성능을 만드는 것이 스케일인지, 아니면 정말 모델의 구조인지요!

구글 리서치에서 발표한 Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?에서는 10가지 모델 아키텍처에 스케일을 달리하며 비교해보았습니다.

그 결과 스케일 효과는 기본적인 형태의 Transformer(Vanilla Transformer)에서 가장 크게 드러났습니다. 또한 사전 학습(Pre-train)의 성능이 파인 튜닝(Fine-tuning)의 성능을 보장하는 것은 아니라는 결과가 나타났습니다.

참고사항: Transformer와 BERT

최근 트랜스포머 기반의 언어 모델들이 계속해서 등장하고 있습니다. Transformer는 자연어처리뿐만 아니라 최근에는 이미지에도 적용이 되고 있는데요, 자세한 내용은 아래 링크에서 확인하실 수 있습니다.

Transformer: Attention is All You Need

유명한 시퀀스 변환 모델들은 복잡한 순환﹒합성곱 신경망(이하 RNN﹒CNN)을 기반으로 encoder와 decoder를 포함하고 있습니다. 가장 성능이 좋은 모델 또한 attention 매커니즘을 이용하여 encoder와 decoder를 연결합니다. 해당 논문에서는 RNN﹒CNN 없이 오직 Attention 매커니즘만을 기반으로 한, 새롭고 간편한 네트워크 구조인 Transformer를 제안합니다. 2가지의 기계번역 task에서 Transformer 모델들은 성능이 매우 우수했으며, 병렬화를 통해 학습 시간을 현저히 줄여나갔습니다.

https://deepdaiv.oopy.io/paper/transformer

BERT: Pre-training of Deep Bidrectional Transformers for Language Understanding

논문 : BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding 저자 : Google AI Language (Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova)

https://deepdaiv.oopy.io/paper/bert

액자 바깥에 가려진 것은 무엇일까? 무한한 Outpainting, NUWA-Infinity

NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis

In this paper, we present NUWA-Infinity, a generative model for infinite visual synthesis, which is defined as the task of generating arbitrarily-sized high-resolution images or long-duration videos. An autoregressive over autoregressive generation mechanism is proposed to deal with this variable-size generation task, where a global patch-level autoregressive model considers the dependencies between patches, and a local token-level autoregressive model considers dependencies between visual tokens within each patch.

https://arxiv.org/abs/2207.09814

Infinite Outpainting

고흐의 <별이 빛나는 밤>의 프레임 너머에는 무엇이 있을까요? NUWA-Infinity로 그려낸 그림입니다.

마이크로소프트 연구진은 그림 밖의 영역, 즉 무한한 크기의 Outpainting이 가능한 NUWA-Infinity 모델을 발표하였습니다. 기존에 보지 못했던 새로운 영역을 그려내기 위해 자동회귀 생성(Autoregressive Generation) 메커니즘을 활용하였습니다.

Image to Video

NUWA-Infinity는 이뿐만 아니라 파도 이미지를 파도치는 영상으로 만들거나,

Text to Image

텍스트에 맞는 이미지를 만들어내기도 합니다.

입력 텍스트: a beach with mountains around and a blue sky

실재하는 이미지가 아닙니다. NUWA-Infinity가 만들어낸 가상의 이미지입니다.

NUWA-Infinity

https://nuwa-infinity.microsoft.com/#/

위 링크에서 더욱 다양한 데모 이미지를 만나볼 수 있습니다.

노래 가사 받아쓰는 인공지능: wav2vec 2.0 전이학습을 통한 자동 가사 쓰기

Towards Transfer Learning of wav2vec 2.0 for Automatic Lyric Transcription

Automatic speech recognition (ASR) has progressed significantly in recent years due to large-scale datasets and the paradigm of self-supervised learning (SSL) methods. However, as its counterpart problem in the singing domain, automatic lyric transcription (ALT) suffers from limited data and degraded intelligibility of sung lyrics, which has caused it to develop at a slower pace.

https://arxiv.org/abs/2207.09747

Siri나 Bixby를 사용해보신 적이 있으신가요? 아니면 Alexa나 CLOVA 같은 AI 스피커는요? 우리의 말을 듣고 인식하는 방법을 자동 음성 인식 기술(Automatic Speech Recognition, ASR)이라고 합니다. 이 분야의 대표적인 모델로 wav2vec 2.0이 있습니다.

우리의 음성은 학습 데이터가 많아 이미 어느 정도 준수한 성능을 내지만, 노래 가사는 그렇지 않습니다. 그래서 이미 잘 학습된 wav2vec 2.0 사전 학습 모델을 활용하여 자동 가사 전사(Automatic Lyrics Transcription, ALT) 방법에 전이 학습을 수행하여 성능을 끌어올렸습니다. 전이학습은 CTC(Connectionist Temporal Classification) 손실값을 이용하여 파인튜닝하는 식으로 진행되었습니다.

새로운 소식

KCCV 2022

국내 컴퓨터 비전 학회가 서울 코엑스 오디토리움에서 KCCV 2022가 8월 8일부터 11일까지 나흘간 개최됩니다.

KCCV 2022

컴퓨터비전은 4차 산업혁명 및 인공지능의 핵심기술로서 학문적 중요성 및 실용적 효용성이 갈수록 부각되고 있고, 관련 분야 연구자, 개발자들의 관심이 계속 커지고 있습니다. 최근 컴퓨터비전 분야에서 우리나라 연구자들이 세계 수준의 연구결과를 많이 발표하고 있습니다. 이러한 수준 높은 최신 연구 성과를 국내에서 함께 공유하는 학술 발표 모임으로 2014년에 시작된 KCCV가 어느덧 9회에 이르렀습니다.

http://kccv2022.kcvs.kr/

문의사항 manager@deepdaiv.com