INTRO
AI가 인간을 뛰어넘을 수 있느냐 없느냐는 인공지능 분야에서 여전히 뜨거운 감자로 자리잡고 있습니다. 인간의 독창성, 직관 등을 있는 그대로 발현할 수 있는 예술 분야에서도 AI는 너무나 창의적인 작품을 만들어내기 때문에 우리에게 놀라움과 충격을 동시에 안겨주고 있습니다.
인공지능이 창작의 주체가 될 수 있을까요?
이러한 질문에 사색을 하기 앞서, 우리가 먼저 생각해야 할 점은 AI는 인간의 한계를 보완할 수 있는 조력자가 될 수 있다는 것입니다. AI는 우리에게 많은 편리함을 가져다 주었으나, 아직 예술 분야에서 데이터 기반의 패턴 음악이라는 인식에서 벗어나지 못했다는 한계를 가지고 있습니다. 그러나 협업을 통해 감정 등의 정성적인 요소를 AI에 부여한다면 완전한 예술 작품으로서 가치를 인정받을 수 있지 않을까요?
많은 기술의 발전으로 문화, 예술 분야의 패러다임이 바뀌고 있습니다. 개인의 “디지털 문해력” 향상이 소수의 예술 전문가 집단에만 국한되는 것이 아니게 되면서, 누구나 쉽게 창작자가 될 수 있는 시대가 되었습니다. 또한, SNS의 발달로 문화의 확산이 가속화되는 중입니다.
그 중 음악 영역에 인공지능이 도입되는 사례가 증가하고 있으며 이미지 인식, 자연어 처리, 음성 인식 기술을 활용하여 작곡, 뮤직 프로듀싱, 퍼포먼스 등에 적용되고 있습니다. 인공지능 작곡 프로그램은 인공지능에 소리를 학습시켜 알고리즘을 형성하고, 기존에 창작된 작품을 기반으로 음악을 자동 생성합니다. 해당 아티클을 통해 인공지능 기술이 많은 예술가들에게 영감을 제공하고 있다는 사실과 더불어 향후 예술적 가치가 있는 융·복합 콘텐츠 제작으로써 전망과 연구의 필요성에 대해 논하고자 합니다.
[ 목차 ]
1. 음악계에서의 딥러닝, 현 지표
딥러닝 기술은 인간과 유사한 방식으로 사고할 수 있는 알고리즘을 모델링하여 많은 예체능 분야에 영향을 미치고 있습니다. 음악 영역에서 딥러닝 기술은 인공지능이 기존에 창작된 음악 작품을 학습하여 음의 밀도, 작곡가의 음악적 성향, 음악적 패턴 등의 데이터를 기반으로 자동 생성이 가능하도록 만들었습니다. 또한, DNN 기술을 기반으로 기존에 창작된 다양한 음악의 장르와 구조, 패턴 등을 분석하고, 수집된 MIDI 데이터를 학습하여 알고리즘을 통해 새로운 음악을 창조할 수 있는 인공지능 작곡 프로그램이 출시되었습니다.
그러나 아직까지 정성적인 요소가 많은 예술이나 감정의 영역을 수학적으로 변환하여 정량적인 요소로 이해하기 어려운 부분이 많습니다. 이러한 인공지능 기술의 한계점을 보완하고자 인공지능 작곡 프로그램을 활용한다면 인간의 직관력, 창의성이 녹아든 창작품으로서 향후 예술적 가치가 높아질 것입니다. 또한, 음악 콘텐츠 제작에 대한 접근성을 높일 수 있도록 이번 아티클이 작게나마 기여할 수 있기를 바랍니다.
2. 인공지능 작곡 프로그램의 원리
2.1. 인공지능 작곡 프로그램 MIDI 자동 생성 원리
MIDI란?
Musical Instrument Digital Interface의 약자로 전자 악기가 확산이 되면서 서로 다른 제조사들에서 만들어진 전자 악기들과 기계들이 서로 갈등 없이 연결/호환이 되도록 통일되게 정해 놓은 약속입니다.
인공지능은 기존에 창작된 음악을 데이터 기반의 학습을 통해 음악을 자동 생성합니다. 사용자가 장르, 감정, 코드, 템포, 악기 편성 등의 속성(Parameter)을 설정하여 실시간으로 음악을 추출할 수 있습니다.
또한, 인공지능에 형성된 알고리즘에 따라 실시간으로 Input Data를 넣었을 때 연주자와 협연도 가능합니다. 심층신경망을 이용하여 음악의 패턴을 분석하는 AIVA는 현존하는 약 33만개 이상의 MIDI 데이터를 기반으로 수학적인 규칙들의 집합을 구성하여 알고리즘을 형성합니다. 이러한 시스템은 사용자가 자신만의 고유한 곡을 창작하는데 활용할 수 있도록 구현된 것입니다.
2.2. 인공지능 작곡 프로그램 DDSP의 원리
DDSP: Differentiable Digital Signal Processing는 악기 음색 데이터를 기반으로 학습하여 Input Audio와 소리 합성(Sound Synthesis)을 통해 음색을 전환합니다. 악기 소리나 단선율(Monophony) 오디오 데이터를 입력하여 새로운 음색을 구현할 수 있으며, 사용자가 직접 Sound Design 작업에 활용할 수도 있습니다.
3. 인공지능 작곡 프로그램의 음악 콘텐츠 제작 사례
현재 인공지능 작곡 프로그램의 자동 재생 기능은 음악적인 패턴을 반복시키거나 단순한 코러스 부분을 맡기 때문에, 이러한 패턴 음악에는 상징성이나 의미를 부여하기 어렵습니다. 하지만 인간의 감정이나 직관 등을 AI 음악에 녹여낼 수 있다면 완전한 창작품으로서 활용될 수 있을 뿐만 아니라 인간의 창의적인 발상과 영감의 기반이 될 수도 있습니다.
해당 아티클은 <A Study on Music Content Production Using Artificial Intelligence Composition Program> 논문을 기반으로 작성되었습니다. 지금부터는 한국콘텐츠진흥원에서 주관한 <2020 Music meets AI>와 <2021 AI Song Contest 프로젝트> 사례를 중심으로 인공지능 음악 콘텐츠 제작 과정을 살펴보려고 합니다. 인공지능과 인간의 협업을 통한 창작품으로써 예술적 가치에 대해서 생각해봅시다!
3.1. 인공지능 작곡 프로그램 AIVA를 활용한 Melody 제작
AIVA는 심층신경망을 이용하여 기존에 창작된 음악 작품 데이터를 분석하고, 딥러닝을 통해 알고리즘을 형성하여 음악을 자동 생성합니다. 감정은 AI가 스스로 내재화하기 어려운 추상적인 영역이기 때문에 네 가지 감정(Sad - Angry - Happy - Tender) 중 Sad와 Tender 파트 제작에 대한 내용을 살펴보려고 합니다. 아래는 그 과정입니다.
Steven R. Livingstone의 Music-Emotion Rules 이론 기반의 정보 추출
•
Music-Emotion Rules는 감정을 음악적 속성으로 분류한 이론입니다.
AIVA 작곡 프로그램에서 추출한 Melody 데이터
•
추출한 Melody를 AIVA가 편곡한 것입니다.
AIVA에서 추출한 Sad와 Tender의 Melody 제작
•
감정별 악기 종류 결정 및 음의 높낮이를 동시에 표현한 것입니다.
Sad와 Tender 파트의 Visual art와 음원 결과물
•
인간이 느끼는 보편적인 감정을 음악적인 속성과 연관시켜 작품에 적용한 것입니다.
Sad 파트는 블루 계열로 색상 연출을 하여 음악과의 분위기를 맞추려고 한 것입니다. 결과적으로 청취자들이 슬픔뿐만 아니라 무서움, 두려움, 그리움, 아픔 등 복잡한 감정을 느끼기도 하는 등 다양한 감정을 표출했습니다. 이는 실제 느끼는 감정을 더욱 세분화할 수 있으며, 인간의 감정을 어떠한 속성에 따라 분류하여 보편화하는 것이 어렵다는 의미이기도 합니다.
3.2. Tone Transfer를 활용한 Sound Design과 음원 리소스 제작
단순한 멜로디나 코러스를 자동적으로 생성하는 것으로 그치는 것이 아니라 인공지능 음악이 예술성을 확보하기 위해서는 다양한 음악적 재료를 확보하려는 노력이 필요합니다.
Sound Design
Sound Design을 통해 음악의 입체적인 분위기를 조성하고 일상, 자연의 소리를 수집한 Sample Data를 AI에 학습시켜 새로운 사운드로 탈바꿈시킬 수 있습니다. 싱잉볼, 물방울, 새소리, 곤충 소리 등 Sample Data를 구축하는 과정입니다.
멜로디와 코러스에 적용할 수 있는 구글 Magenta의 Tone Transfer를 선택
딥러닝 기반의 맞춤형 Tone Transfer Model입니다. Model 완성 이후 Input Audio를 적용한 뒤 Model의 DDSP에 적용하는 방법입니다. 하단은 Tone Transfer 모델을 설정하고 모델의 DDSP 파라미터를 조절하는 이미지입니다.
A Study on the production of Music Content Using Artificial Intelligence Composition Program -Trans- | Korea Science
A Study on the production of Music Content Using Artificial Intelligence Composition Program -Trans- | Korea Science
그 외에도 인공지능 음성을 보컬의 코러스 부분에 사용하는 TTS(Text to Speech)모델 기반의 Prosody 활용하거나 MIDI 데이터를 자동 생성하여 도출한 뒤 구글 Magenta의 Improve RNN(Recurrent Neural Network) 모델을 활용하는 방법도 있습니다.
인공지능이 학습한 Sample Data의 음고가 명확할수록 음색 변환에 효과적입니다. 그리고 질이 좋은 사운드를 추출하기 위해서는 Data Set을 수집하는 초기 과정에서 Sample Data의 소음이나 잡음을 제거할 수 있는 정제 과정이 필요합니다.
3.3. Prosody를 통한 AI 음성 활용 및 음원 리소스 제작
Prosody란?
TTS(Text to Speech) 방식의 딥러닝 음성 합성 모델입니다.
인공지능 성우들의 목소리를 다양한 감정과 톤으로 조절할 수 있을 뿐만 아니라 성별, 연령 등에 따라서도 음성 변조가 가능합니다.
메인 보컬의 코러스 부분에 삽입하여 음성 조절 기능을 이용합니다. 메인 보컬의 목소리와 음색이 어울릴 수 있도록 “테스트화”하여 제작합니다. 그 이후 인공지능 성우의 목소리를 음절로 분할하여 음색의 높낮이에 맞게 변환하는 방식으로 Prosody를 활용할 수 있습니다.
맞춤형 모델인 Tone Transfer의 지속적인 보완을 통해 업데이트를 하고 추가적으로 더 많은 Sample Data를 확보하여 다양한 모델을 구축한다면 새로운 음색을 구현할 수 있을 것입니다.
4. 인공지능을 활용한 융복합 예술 콘텐츠 제작의 방향성
음악 영역의 추세
AI는 현재 엄청난 속도로 다작을 하고 있습니다. 이용자가 버튼 몇 개만 누르면 30초 안에 3분짜리 곡이 만드는 것으로 보아 이론상 하나의 단말이 하루에 수천 곡을 쏟아낼 수 있습니다. 음악에 문외한이더라도 가볍게 나만의 음악을 만들어 활용할 수 있게 되었습니다.
하지만 AI의 대량 생산 능력이 가격 파괴로 이어져 전문 음악인의 설자리를 위협할 수도 있습니다. 이츠키 유우의 소설 『기계 고래는 노래한다』는 AI 작곡이 보편화된 세계를 배경으로 작곡가도 연주자도 AI를 위한 도구로 전락해버린 디스토피아적 풍경을 그리고 있기도 합니다.
글쓰기 플랫폼에 누구나 글을 발표할 수 있듯, 이미 작곡도 누구나 할 수 있는 일이 되었습니다. AI 작곡은 AI 덕에 음악 생태계 소비가 풍성해졌기 때문에 피할 수 없는 방향이지만 이를 선별하는 귀가 생길 것이고, 잘 쓰는 사람에 대한 존경심이 더 커질 것입니다. 진짜 작곡가는 음악적 세계 속 무에서 유를 창조하는 사람이기에, AI가 단순한 모방에서 벗어나 자기만의 예술적 스토리를 창조할 수 있느냐는 영원한 숙제로 남을 것 같습니다.
미술 영역의 추세
사용자들이 스케치나 낙서한 그림을 보완하는 구글 Autodraw, 간단한 문자열을 넣으면 이미지를 생성해주는 OpenAI의 Deep daze와 DALL-E, 텍스트로 된 설명문을 입력하면 사람의 스케치나 붓질 한 번 없이 이미지로 변환시켜주는 미드저니(midjourney) 프로그램 등이 출시되는 경지에 이르렀습니다. 이처럼 예술작품을 만드는 AI 기술은 새롭다고 여겨지지 않을 만큼 점차 발전하는 추세입니다. 국내에서도 1인 창작자를 위한 AI 기반 그림, 웹소설, 웹툰 캐릭터 창작 플랫폼인 ‘콜레리’가 출시된 바 있습니다.
또한, 아예 창작하는 AI도 개발되고 있는 중 입니다. 구글은 AI 화가 ‘딥 드림(Deep Dream)’을 지속적으로 업데이트하고 있습니다. 구글 관계자에 따르면 이제 모방의 단계를 넘어 인간의 고유 창작 영역에도 근접할 수 있는지 실험 중이라고 밝힌 바 있습니다.
OUTRO
대표적인 사례들 이외에도 이제 AI는 막 예술 영역으로 인정받는 것으로 보입니다. 하지만 이런 분위기가 타오르다가 금방 저버리는 트렌드로 끝나지 않기 위해서는 기술적 진보 외에도 AI 창작을 수용하는 사회적 담론이 지속적으로 전개되어야 합니다. 이러한 노력이 지속된다면 4차 산업 시대의 문화 예술이 하나의 사조로 기록되고, 공존할 수 있는 방법이 될 수 있을 것입니다.
이처럼 빅데이터를 분석하고 패턴을 응용할 수 있는 인공지능은 이제 예술가들이 시도하지 못했던 한계점을 뛰어넘기도 합니다. 다양한 영역의 분야와 예술을 융합할 수 있다면, 기존에 볼 수 없었던 색다른 예술 콘텐츠로 재창조될 수 있을 것입니다. 또한, AI는 인간을 대체하기 위한 수단이 아닌, 인간과의 공존을 통해 예술 분야에 새로운 패러다임을 불어넣을 수 있는 출발점이 될 수 있을 것 같습니다.
Digital Contents
김수빈(deep-ing)
참고문헌 및 출처
[1] CAN: Creative Adversarial Networks Generating “Art” by Learning About Syles and Deviating from Style Norms, 2017.
[2] 이것은 미술이 아니다, 메리 앤 스타니스제프스키, 현실문화
[3] Floridi, L. The Fourth Revolution: How the Infosphere is Reshaping Human Reality, Oxford: Oxford University Press, 2016.
[5] A Study on Music Content Production Using Artificial Intelligence Composition Program, 2022
문의사항 manager@deepdaiv.com
DDSP란?
구글 Tone Transfer의 핵심 기술입니다.