#3 동물과 소통할 미래를 위하여

Issue

Issue 3

날짜

2022/08/10

시즌

Season 1

작성자

📔 Cover Story

동물과 소통할 미래를 위하여

🙌 deep daiv. 새로운 글

🦜BirdNet: A deep learning solution for avian diversity mornitoring

👩🏻‍🎨인공지능의 예술성

📁 Weekly AI ArXiv

2억 개의 단백질 구조를 밝힌 AlphaFold DB 공개

2D 이미지를 3D로, Generative Multiplane Images

Cover Story

동물과 소통할 미래를 위하여

집에 반려동물을 키우고 있다면, 그들과 대화를 하고 싶다는 생각을 해본 적이 있을 것입니다. 동물들의 울음소리를 이해할 수 있다면 세상은 어떻게 변할까요?

2022년 7월 말, 영국의 일간지 The Guardian은 Can artificial intelligence really help us talk to the animals?라는 제목의 기사를 발표합니다.

Can artificial intelligence really help us talk to the animals?

dolphin handler makes the signal for "together" with her hands, followed by "create". The two trained dolphins disappear underwater, exchange sounds and then emerge, flip on to their backs and lift their tails. They have devised a new trick of their own and performed it in tandem, just as requested.

https://www.theguardian.com/science/2022/jul/31/can-artificial-intelligence-really-help-us-talk-to-the-animals

이 기사에서는 ESP를 소개하고 있습니다. 미국 캘리포니아에 있는 Earth Species Project(ESP)는 동물들의 언어를 해석하기 위한 연구를 진행하는 비영리 단체입니다.

벡터 공간에 표현된 단어들

ESP를 설립한 Aza Raskin은 Word2Vec과 같은 방법으로, 인간 언어의 단어 의미 관계가 유사하게 표현될 수 있다는 점을 언급하며 동물 언어도 해석할 수 있음을 강조합니다.

실제로 동물 언어 연구의 성과는 존재합니다. 돼지의 울음소리를 분석하여 어떤 감정을 느끼고 있는지 판단하거나, 새의 울음소리들을 분석해 종과 개체수를 파악하는 연구가 이루어졌습니다.

하지만 이런 연구는 특정 동물들에게만 해당이 됩니다. Raskin은 모든 종의 동물 언어를 해석할 수 있다고 믿습니다. 물론, 이에 대한 반론도 제기됩니다.

펜실베니아 대학의 Robert Seyfarth 교수는 똑같은 소리가 다른 맥락의, 다른 의미로 쓰일 수 있다고 말합니다. 그리고 동물과 인간의 언어 체계가 다를 수 있다는 점도 지적합니다.

언어 철학자 루트비히 비트겐슈타인은 “사자가 말을 할 수 있다고 하더라도 우리는 그 말을 이해할 수 없을 것”이라고 말했습니다. 사자와 인간은 삶의 형태가 다르기 때문입니다.

Aza Raskin도 이 문제는 달에 가는 것과 같이 어렵다고 인정합니다. 하지만, 작은 문제들을 해결하며 한 걸음씩 나아갈 수 있다고 믿습니다. 여러분의 의견은 어떤가요?

참고사항

Efficient Estimation Of Word Representations In Vector Space (Word2Vec) (1)

본 논문의 목표는 양질의 단어 벡터를 큰 data set 또는 vocabulary로부터 학습하는 방법을 소개하는 것입니다. 단어를 벡터로 표현하는 방식을 통해 유사한 의미의 단어가 근처에 위치할 뿐 아니라, multiple degrees of similarity(syntactic, semantic, phonetic 등의 분야의 feature를 공유)를 가질 수 있도록 만들어줍니다.

https://deepdaiv.oopy.io/paper/word2vec

deep daiv. 새로운 글

BirdNet: A deep learning solution for avian diversity mornitoring

BirdNET: A deep learning solution for avian diversity monitoring

오늘의 논문 리뷰는 현재 생태계의 건강 상태에 대한 정보를 분석하는 딥러닝 모델 BirdNET에 대한 것입니다.

과거에는 새에 관련된 여러 정보를 파악하기 위해, 사람이 직접 현장으로 나갔지만 현재는 인력의 한계 등을 고려해 여러 장치를 활용해 데이터를 수집 및 분석하고 있습니다. 분석을 위해 여러 음성 파일을 활용하고, 데이터 가공을 위해 spectogram을 이용했습니다. 데이터 전처리 과정에서 Fast Fourier Transform Mel-Spectrogram 등 여러 개념이 등장하는데요. 글을 통해 한 번 살펴보세요

모델은 크게 전처리 Block, Residual Stack, Classification block으로 나뉘어 있습니다. 이때 Wide RestNet architcture를 BirdNET 구현을 위해 사용했습니다. 실험 결과, 성능이 높아졌으나 soundscape에서는 domain shift로 인한 어려움을 발견할 수 있었습니다.

모델은 대부분의 종의 새에 대해서 잘 작동하는 것을 확인할 수 있었습니다. 다른 종과 유사한 흔한 종에 대해서는 인식하는 데에 있어 어려움이 있었으나, 그럼에도 불구하고 녹음 음질이 좋은 데이터를 활용하였을 때에는 뛰어난 정확도를 보였습니다. BirdNET은 효율성 혹은 성능에는 패널티를 받지 않으면서, 더욱 많은 종류의 새를 구별해낼 수 있는 좋은 모델입니다. 모델의 지속적인 발전을 통해 조류 생태계의 연구가 더욱 활성화될 수 있기를 바랍니다

인공지능의 예술성

‘창의성’이 과연 인간 고유의 영역일까? 인공지능이 발달하면서 ‘창의성’을 키워드로 가지는 예술의 영역이 정말로 인간의 고유한 영역인가에 대한 물음이 끊임없이 던져지고 있습니다. 인공지능의 예술, 과연 가능할 것일까요? 오늘 인공지능 예술의 현 주소를 살펴보도록 하겠습니다.

첫 번째는, 문학 파트입니다. 2018년 KT에서 인공지능 소설 공모전을 개최했습니다. 인공지능이 직접 집필한 소설 공모전이었는데요. 그리고 2021년, 인공지능이 쓴 장편소설 <지금부터의 세계>가 출간되었습니다. 인공지능이 어떠한 과정을 거쳐 하나의 소설을 완성하는지, 살펴보시길 바랍니다.

그 다음은, 그림인데요. DALL-E라는 AI 모델을 소개하고자 합니다. DALL-E 라는 이름, 무언가 익숙하지 않나요? 바로 천재 화가 살바도르 달리와 영화 제작사 피사의 <월-E>를 합쳐 지은 이름인데요. 이 모델은 텍스트를 입력값으로 받으면, 이미지를 출력값으로 만들어냅니다. 인공지능 DALL-E가 그림을 그리는 과정과 그 결과물을 살펴보세요! 사람이 그린 것인지, 인공지능이 그린 것인지 구분하지 못할 만큼 성능이 뛰어나다는 것을 알 수 있을거에요!

마지막은, 작곡 부분입니다. 미국 IBM은 2006년 인공지능 컴퓨터 시스템 Watson을 개발했는데요. Watson은 여러 분야에서 활용되면서 그 영역을 점차 넓혀 갔는데요. 현재는 Watson Music이 있습니다. Watson Music이 발매한 노래는 발매 후 48시간 만에 아이튠즈 핫 트랙스 4위를 기록하는 큰 성과를 보였습니다. MuseNet이라는 OpenAPI도 있는데요. 피아노 곡을 직접 작곡할 수 있는 인공지능입니다. Watson Music와 MuseNet이 만들어낸 결과물을 한 번 확인해보세요

짧은 시간 동안, 문학, 그림, 그리고 작곡까지 여러 예술 분야에서의 인공지능의 무한한 잠재력을 살펴보았는데요. 어떠신가요? 여전히 창의성, 예술이 인간 고유의 영역이라고 생각하시나요? 혹은, 현재 인공지능은 ‘자발적’ 동기로 작동하는 것이 아니기에 무의미하다고 생각하시나요? 이 포스트가 인공지능의 예술성에 대한 여러 생각을 키워나갈 수 있는 첫 단추가 되기를 바랍니다 오늘의 아티클 리뷰였습니다

Weekly AI ArXiv

2억 개의 단백질 구조를 밝힌 AlphaFold DB 공개

AlphaFold

A system like AlphaFold which can accurately predict the structure of proteins is accelerating progress in many areas of research that are important for society. Our partners are already using AlphaFold to accelerate progress on important real-world problems. For instance, the Drugs for Neglected Diseases initiative (DNDi) is advancing drug discovery for neglected diseases, such as Chagas disease and leishmaniasis, which impact millions within poor and vulnerable communities.

https://www.deepmind.com/research/highlighted-research/alphafold

AlphaFold는 AlphaGo를 만든 DeepMind가 2020년에 선보인 단백질 구조 예측 모델입니다. AlphaFold는 2020년 12월, 단백질 구조 예측 학술대회에서 우승하면서 과학계의 이목을 끌었습니다. 그리고 그 이후에AlphaFold의 소스코드와 구조 해독이 완료된 단백질 데이터가 공개되면서 AlphaFold의 성과는 생물학에 큰 영향을 끼치고 있습니다. AlphaFold는 생명공학 분야에서 인공지능으로 이루어낸 가장 기념비적인 성과 중 하나로 꼽힙니다. 자세한 내용은 아래 링크를 확인해보세요!

AlphaFold reveals the structure of the protein universe

Today, in partnership with EMBL's European Bioinformatics Institute (EMBL-EBI), we're now releasing predicted structures for nearly all catalogued proteins known to science, which will expand the AlphaFold DB by over 200x - from nearly 1 million structures to over 200 million structures - with the potential to dramatically increase our understanding of biology.

https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

2D 이미지를 3D로, Generative Multiplane Images

Apple이 ECCV 2022에 공개한 Generative Multiplane Images: Making a 2D GAN 3D-Aware (GMPI)를 소개합니다. 이 논문은 2D 이미지를 3D로 인식할 수 있게 생성해주는 모델을 설명합니다.

연구자들은 StyleGANv2를 가능한 보존한 채로 GMPI를 만들었습니다. 달라진 부분은 크게 2가지로 요약할 수 있는데요

1. 깊이에 따라 조건화된 다평면 이미지 스타일 생성기

2. 포즈로 조건화된 판별기

StyleGANv2를 활용하여 Alpha Map을 생성하고, 이를 통해 Multiplane Images(MPI)를 생성합니다. 그리고 이 이미지를 MPI 렌더러에 입력하여, 판별자가 가짜 이미지라고 판별하지 못하도록 자연스러운 이미지를 학습합니다. 이 과정에서 그림자를 더하기도 합니다.

최종적인 결과물은 아래와 같습니다. 애플은 다양한 데이터셋에 잘 적용된다는 사실을 밝혔습니다. 더욱 자세한 내용은 아래의 논물을 참고해주세요!

ml-gmpi

apple

Generative Multiplane Images: Making a 2D GAN 3D-Aware

What is really needed to make an existing 2D GAN 3D-aware? To answer this question, we modify a classical GAN, i.e., StyleGANv2, as little as possible. We find that only two modifications are absolutely necessary: 1) a multiplane image style generator branch which produces a set of alpha maps conditioned on their depth; 2) a pose-conditioned discriminator.

https://arxiv.org/abs/2207.10642

문의사항 manager@deepdaiv.com