오디오 딥러닝과 TTS에서는 무엇을 배우나요?
오디오 딥러닝은 음성을 다루는 딥러닝의 한 분야입니다. Siri가 우리의 말을 이해하는 것도, 특정 발화자의 말만 구분해 인식하는 것도, 가상의 브루노 마스가 Hype Boy를 부르는 것도, 혹은 더 나아가 AI가 작곡을 하는 것도 전부 오디오 딥러닝입니다.
최근 "가상인간 로지", "AI가 부활시킨 김광석", "브루노 마스가 부른 Hype Boy" 등으로 세간의 관심을 끌었던 TTS(Text-to-Speech)는 오디오 딥러닝의 하위 분야 중 하나로 텍스트를 오디오로 바꾸는 기술입니다. 사용자가 글을 입력하면 그 글을 음성화하는데, Apple Siri에 쓰이는 기술로 AI 어시스턴트 등이 대표적 활용처입니다. TTS를 통해 사용자의 음성 데이터를 가지고 실제로 발화하지 않았던 문장도 자연스럽게 재생할 수 있습니다.
이번 2023 여름 오디오 딥러닝과 TTS 커리큘럼은 TTS를 비롯해 오디오 딥러닝에서 다루는 다양한 기술들에 대한 전반적인 이해 및 코드 구현을 목표로 합니다. 먼저 오디오 데이터 처리와 관련한 여러 개념에 대해 학습한 뒤 다양한 오디오 딥러닝 기법들을 심도있게 공부합니다. 오디오 딥러닝은 인간의 말을 다루는 NLP(Natural Language Processing)나 인간의 시각을 다루는 CV(Computer Vision)에 비해 상당히 생소할 수 있는 영역이지만, 딥러닝의 발전에 굉장히 크게 기여하고 있습니다. 이번 여름 클래스 동안 함께 재밌고 열정적으로 공부할 수 있으면 좋겠습니다.
오디오 딥러닝과 TTS 2023 여름 커리큘럼
*오디오 딥러닝과 TTS 2023 여름 커리큘럼 중 활용 모델은 변경될 수 있습니다.
클래스
일정 2023년 8월 1일 - 8월 29일 (5주)
시간 매주 화요일 오후 8시 - 10시
챌린지
일정 2023년 8월 1일 - 8월 29일 (5주)
시간 매주 화요일 오후 10시 - 11시
주차 | 날짜 | 개념 |
1주차 | 8월 1일(화) | 오디오 데이터 처리 오디오 딥러닝 트렌드 |
2주차 | 8월 8일(화) | Audio Classification |
3주차 | 8월 15일(화) | Speech Recognition |
4주차 | 8월 22일(화) | Text-to-Speech Tacotron |
5주차 | 8월 29일(화) | Text-to-Speech MB-MelGAN |
오디오 딥러닝과 TTS 2023 상세 커리큘럼
1주차 오디오 딥러닝 트렌드 오디오 데이터 처리
2주차 Audio Classification
3주차 Speech Recognition
4주차 Text-to-Speech 1
5주차 Text-to-Speech 2
수강대상
다음 4개의 항목들 중 두 가지 이상에 해당하시는 분은 오디오 딥러닝과 TTS 클래스를 수강하시기 적합합니다. Attention, LSTM 등 다양한 딥러닝 개념들을 함께 공부해 나갈 예정이기 때문에 딥러닝에 대한 많은 지식이 없어도 이 클래스를 무리 없이 수강하실 수 있습니다.
1.
오디오 딥러닝에 관심이 많으신 분
2.
딥러닝 기초 개념(순전파, 역전파, CNN, RNN 등)을 공부해 보신 경험이 있으신 분
3.
파이썬 기초 개념(자료형, 객체 등)이 익숙하신 분
4.
딥러닝 및 파이썬 기초 개념에 대해 배워나갈 열정이 있으신 분
리더를 소개합니다!
시계열 데이터에 매력을 빠져 전공으로도, 전공 외에도 열심히 공부했습니다. 그러다 제 취미 중 하나인 작곡을 하다가 저 대신 노래를 불러줄 AI가 필요해 시계열의 일종인 오디오 딥러닝을 공부했습니다. 현재 고려대학교 통계학과에 재학 중입니다.
•
SOTA 달성 중인 TTS, ASR(음성 인식) 모델 다수 활용한 프로젝트 진행 경험 有
•
오디오 생성 모델 Wavenet 및 EMA(Exponential Moving Average)를 응용한 시계열 예측 알고리즘 개발
•
한국수자원공사, 산업통상자원부, BirdCLEF 2022(Kaggle Audio Classification) 등 공모전 참여 및 입상 경험 有