#6 글을 입력하면, 음악을 만들어준다고?

Issue

Issue 6

날짜

2023/02/09

시즌

Season 1

작성자

안녕하세요, 오늘은 ChatGPT를 뒤이은 핫한 기술이 MusicLM에 대해 소개하고자 합니다. 구글이 새로운 인공지능 시스템 개발 소식을 전했습니다. 바로 텍스트 설명이 주어지면, 어떠한 장르의 음악이든 생성해내는 MusicLM을 개발했다는 소식인데요. 안타깝게도 개발 소식만 전해왔을뿐, 현재로서는 모델을 공개할 계획은 없다고 합니다. 구글이 모델 공개를 꺼리는 이유를 살펴보기 전에, 이 모델이 무엇인지 간단히 살펴보시죠!

📔 Cover Story

텍스트로 음악을 생성하는 구글의 MusicLM

MusicLM은 무엇인가

MusicLM은 완벽한가

예술계의 인공지능, 그 논란은 어디까지인가

🆕 Weekly AI ArXiv

01. 폐 결절의 악성도를 예측하는 Sybil

02. Learnign Rate을 자율적으로 tuning하는 알고리즘

03. Bio 분야에서 최고 성능을 보이는 BioGPT

👀 새로운 소식

01. 기후 및 기상을 위한 기초 모델 ClimaX

02. Diffusion Model을 이용하여 텍스트-오디오를 생성하는 Make-an-Audio

03. 비지도 객체를 탐지하고 분할하는 CutLER

Cover Story

텍스트로 음악을 생성하는 구글의 MusicLM

MusicLM은 무엇인가

MusicLM이 음악을 생성하는 첫 인공지능 시스템은 아닙니다. 음악을 시각화해 작곡하는 인공지능 Riffusion, 구글 자체의 AudioML, OpenAI의 JukeBox 등 음악을 생성하는 여러 선행 기술이 존재합니다. 하지만 기술적인 한계와 제한된 학습 데이터로 인해 그 어느 것도 조금은 까다롭고 복잡한 노래를 작곡하지는 못했습니다.

MusicLM은 이러한 한계점을 극복하고 등장한 기술입니다. MusicLM을 설명하고 있는 논문을 살펴보면, 앞서 언급한 한계점, 즉 상당히 복잡한 설명을 가진 텍스트에 상응하는 음악을 만들어내기 위해 28만 시간의 음악 데이터 세트를 학습했다고 합니다. 가령, “기억에 남을만한 색소폰 소리, 그리고 솔로 가수가 부르는 재즈 곡” 혹은 “낮은 베이스와 강한 킥을 보이는 90년대의 테크노” 등이 아주 복잡한 입력값이 될 수 있겠죠. 그 결과, MusicLM은 우리 인간 예술가들이 직접 작곡한 곡과 같이 들리는 음악을 생성해낸다고 합니다. 앞서 예시 설명보다 더욱 길고 복잡한 설명이 들어와도, 이를 반영하여 악기의 멜로디, 분위기를 잘 표현해 냅니다. MusicLM이 만들어내는 결과물은 아래 링크에서 확인할 수 있습니다!

MusicLM

Andrea Agostinelli, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank Google Research Abstract We introduce MusicLM, a model generating high-fidelity music from text descriptions such as"a calming violin melody backed by a distorted guitar riff".

https://google-research.github.io/seanet/musiclm/examples/

MusicLM은 몇 개의 설명을 연달아서 받아들여, 일종의 멜로디 “스토리”를 만들어낼 수도 있습니다. 가령, 사용자가 "명상하는 시간", "깨어나는 시간", "달리는 시간"과 같은 순서로 쓰여진 몇 가지 설명을 제시할 수 있고, 이에 모델이 멜로디적 스토리를 만들어 냅니다. 영화 사운드 트랙에 아주 적합해 보이네요.

이뿐 아니라, MusicLM은 그림과 텍스트의 조합을 통해 특정 장르 혹은 특정 유형의 악기가 연주하는 오디오를 생성할 수도 있습니다. 인공지능 "음악가"의 경험 수준도 설정할 수 있습니다.

MusicLM은 완벽한가

MusicLML이 문제가 없는 것이 아닙니다. 데이터 샘플 중 일부는 품질이 좋지 않고, 이는 학습 과정에서 문제를 야기하게 됩니다. 구글 연구원들은 MusicLM과 같은 기술이 가지고 있는 윤리적 문제에 주목하고 있습니다. 해당 기술은 학습 데이터의 저작권이 있는 자료들를 생성된 노래, 즉 최종 결과물에 통합하는 경향이 있다고 합니다. 실험 중에 연구원들은 MusicLM이 생성한 음악의 약 1%가 학습한 노래에서 직접 복제된다는 것을 발견하기도 했습니다.

연구자들은 "우리는 창의적인 콘텐츠의 잠재적인 오용 위험을 인정하며, 이러한 위험을 해결하기 위해 더 많은 노력이 필요하다”고 말했습니다. MusicLM과 같은 기술을 언젠가 사용할 수 있게 된다고 가정할 때, 기술과 관련된 여러 법적, 윤리적 문제는 불가피할 것으로 보입니다. 해당 기술이 아티스트를 대체하기보다는 아티스트를 지원하는 도구로 자리매김하더라도 말입니다.

예술계의 인공지능, 그 논란은 어디까지인가

2020년 유튜브 채널 Vocal Synthesis가 Billy Joel의 "We Don't Start the Fire" 노래의 Jay-Z 커버를 만들기 위해 AI를 사용했다는 이유로 Jay-Z의 음반사는 Vocal Synthesis을 상대로 의문을 제기했습니다. 이처럼 딥페이크 음악은 여전히 모호한 법적 근거 위에 서 있다고 볼 수 있습니다.

현재 음악 출판업자 협회의 법률 인턴인 Eric Sunray는 MusicLM과 같은 AI 음악 생성 기술이 "학습하는 작품에서 일관된 오디오를 만들어내고, 그로 인해 미국 저작권법의 복제권을 침해한다"고 주장합니다. JukeBox 출시 이후 저작권이 있는 음악에 AI 모델을 학습시키는 것이 공정한가라는 비판도 제기됐습니다. 이미지, 코드 및 텍스트 생성 AI 기술에 사용되는 학습 데이터의 경우에도 유사한 우려가 제기되었습니다. 종종 제작자 모르게 웹에서 긁어내기 때문입니다.

물론, 음악에서 "오리지널"이라고 여겨지는 것이 무엇인지는 불분명합니다. AI가 생성한 음악이 공정하게 사용되며, 적절히 보호된다면 매우 간단하겠지만, 공정성의 기준 및 판단히 쉽지 않을 것으로 예상됩니다.

arxiv.org

https://arxiv.org/pdf/2301.11325.pdf

MusicLM을 설명하는 paper입니다. 직접 읽어보면서, 기술의 원리를 이해하면 좋을 것 같아요 🫶🏻

Weekly AI ArXiv

01. 폐 결절의 악성도를 예측하는 Sybil

ascopubs.org

https://ascopubs.org/doi/10.1200/JCO.22.01345

MIT와 MGH에서 공동연구를 진행하여 CT 영상에서 폐 결절의 악성도를 예측하는 모델을 만들었습니다. 최대 6년 후의 악성도 여부까지 예측할 수 있다고 합니다.

폐결절은 biopsy를 통해 악성 여부를 판단하기에 위험이 크기 때문에 CT 영상만으로 악성 여부를 판단하고자 하는 연구가 진행이 되고 있습니다. 기존 연구는 NLST 데이터셋을 기반으로 최대 2년까지만 예측을 할 수 있었던 반면에 해당 연구는 6년까지 예측을 했다는데 의의를 둘 수 있습니다.

02. Learnign Rate을 자율적으로 tuning하는 알고리즘

arxiv.org

https://arxiv.org/pdf/2301.07733.pdf

학습율을 자율적으로 tuning하는 최적화 알고리즘 Learning-Rate-Free Learning by D-Adaption 논문이 공개되었습니다. Backtracking과 Line Search가 없고, 이론적으로 아주 strong하다고 하네요!

03. Bio 분야에서 최고 성능을 보이는 BioGPT

BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining

Pre-trained language models have attracted increasing attention in the biomedical domain, inspired by their great success in the general natural language domain. Among the two main branches of pre-trained language models in the general language domain, i.e., BERT (and its variants) and GPT (and its variants), the first one has been extensively studied in the biomedical domain, such as BioBERT and PubMedBERT.

https://arxiv.org/abs/2210.10341

Biomedial Task에서 SOTA을 보이는 BioGPT가 제안됐습니다.

새로운 소식

01. 기후 및 기상을 위한 기초 모델 ClimaX

Microsoft & UCLA Introduce ClimaX: A Foundation Model for Climate and Weather Modelling | Synced

Climate change and extreme weather events have made weather and climate modelling a challenging yet crucial real-world task.

https://syncedreview.com/2023/01/30/microsoft-ucla-introduce-climax-a-foundation-model-for-climate-and-weather-modelling/

Microsoft 자율 시스템 및 로봇 연구, Microsoft 리서치 AI4 Science, 로Los Angeles의 California 대학의 팀은 지구의 기후와 관련된 다양한 작업에 효율적으로 적용할 수 있는 기상과 기후를 위한 범용적인 딥 러닝 기초 모델인 ClimaX를 제안했습니다.

02. Diffusion Model을 이용하여 텍스트-오디오를 생성하는 Make-an-Audio

Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models

Large-scale multimodal generative modeling has created milestones in text-to-image and text-to-video generation. Its application to audio still lags behind due to two main reasons: the lack of large-scale datasets with high-quality text-audio pairs, and the complexity of modeling long continuous audio data.

https://text-to-audio.github.io/

대규모 멀티모달 생성 모델링은 텍스트-이미지 및 텍스트-비디오 생성에서 이정표를 제시했습니다. 그러나 해당 모델을 오디오에 적용하는 것은 고품질 텍스트-오디오 쌍을 가진 대규모 데이터 세트의 부족과 긴 연속 오디오 데이터 모델링의 복잡성이라는 두 가지 주요 이유로 인해 여전히 문제점이 많습니다.

위 연구는 언어가 없는 오디오와 함께 주간-지도학습 데이터를 사용하여 데이터 부족을 완화하는 접근법을 도입함으로써 앞서 언급한 문제점을 해결하는 모델 Make-An-Audio을 선보였습니다.

03. 비지도 객체를 탐지하고 분할하는 CutLER

Cut and Learn for Unsupervised Object Detection and Instance Segmentation

We propose Cut-and-LEaRn (CutLER), a simple approach for training unsupervised object detection and segmentation models. We leverage the property of self-supervised models to 'discover' objects without supervision and amplify it to train a state-of-the-art localization model without any human labels.

https://arxiv.org/abs/2301.11320v1

비지도 객체 감지 및 분할 모델을 훈련하기 위한 간단한 접근법인 Cut-and-LEARn(CutLER)이 제안되었습니다. 이전 모델들에 비해 CutLER는 더 단순하고 다양한 탐지 아키텍처와 호환되며 여러 개체를 탐지한다고 합니다. CutLER는 또한 제로샷 비지도학습 검출기이며 비디오 프레임, 그림, 스케치 등의 도메인에 걸쳐 11개 벤치마크에서 탐지 성능 AP50을 2.7배 이상 향상시킵니다.

특별히 흥미로웠거나 유익했던 소식, 다뤄 주었으면 하는 소식이 있다면 댓글로 달아 주시기 바랍니다! 앞으로도 계속해서 유익하고 재미있는 인공지능 콘텐츠로 찾아뵙겠습니다

에디터 허인

문의사항 manager@deepdaiv.com