Audio Deep Learning 2024 ๊ฒจ์ธ ์ปค๋ฆฌํ๋ผ
๋ชจ์ง ์ธ์ 6๋ช
ํ๋ ์๊ฐ ๋งค์ฃผ ํ์์ผ ์คํ 10์-11์
ํ๋ ๋ฐฉ๋ฒ ์ฃผ 1ํ ๋น๋๋ฉด ์ ๊ธฐ ์ธ์
+ ์ฃผ 1ํ ํ๋ณ ๋ฏธํ
<๋์ด ๋ถ๋ฅด๋ Hype Boy> ๋ฑ์ผ๋ก ์ค๋์ค ๋ฅ๋ฌ๋์ด ์ฃผ๋ชฉ์ ๋ฐ๊ฒ ๋์์ต๋๋ค. ์ค๋์ค ๋ฅ๋ฌ๋์ Text-to-Speech, Voice Conversion, Denoising ๋ฑ์ ์์ญ์ผ๋ก ํ๋ฐํ๊ฒ ์ฑ์ฅ์ ์ด๋ฃจ์ด ๋ด๊ณ ์์ต๋๋ค. ๋ด ๊ธฐ์์๋ Text-to-Speech ์์ฃผ๋ก ํ๋ก์ ํธ๋ฅผ ์ํํ์๋ค๋ฉด, ์ด๋ฒ ์ฌ๋ฆ ๊ธฐ์์๋ Text-to-Speech ์ด์ธ์๋ Speech Recognition์ด๋ Audio Source Separation ๋ฑ ๋ค์ํ ์์
์ ์ํํ๋ฉฐ ์๋ฏธ ์๋ ํ๋ก์ ํธ๋ฅผ ๋ง๋ค์ด ๋ณด๊ณ ์ ํฉ๋๋ค.
ํ์ ๊ณผ์
ํ์ ๊ณผ์
์ค๋์ค ๋ฅ๋ฌ๋ ์ฑ๋ฆฐ์ง์ ์ฐธ์ฌํ์๋ ์ฌ๋ฌ๋ถ์ ์ด์์ ์ญ๋์ ๊ฒ์ฆํ๊ธฐ ์ํด ๊ธฐ์กด๊ธฐ์ ๋ถ๋ค๊ณผ ์ ์
๊ธฐ์ ๋ถ๋ค ๋ชจ๋ ๊ณผ์ ๋ฅผ ์ ์ถํด ์ฃผ์
์ผ ํฉ๋๋ค. ๊ณผ์ ์ ํ์์ ์๋์ pdf ํ์ผ์ ์ ์๋์ด ์์ผ๋ฉฐ ๊ธฐ์กด ๊ธฐ์ ๋ถ๋ค๊ณผ ์ ์
๊ธฐ์ ๋ถ๋ค๊ป ์กฐ๊ธ์ฉ ๋ค๋ฅธ ์์์ ๊ณผ์ ๋ฅผ ๋๋ ธ๊ธฐ ๋๋ฌธ์ ํผ๋ ์์ผ์๊ธธ ๋ฐ๋๋๋ค. ๊ณผ์ ๋ .ipynb ํํ๋ก ์ ์ถํด ์ฃผ์
์ผ ํ๋๋ฐ, ๋ฌธ์ ์ ๋ฐ๋ผ ์ฝ๋๊ฐ ์๋ ์ค๋ช
์ ํด์ผ ํ๋ ๊ฒฝ์ฐ์๋ ๋งํฌ๋ค์ด ์
์ ํ์ฉํ์๊ธฐ ๋ฐ๋๋๋ค. ์ด์ธ์ ํ์์ ์์ ๋กญ๊ฒ ์์ฑํด ์ฃผ์ธ์.
โข
์ ์
๊ธฐ์์ ๊ฒฝ์ฐ ๊ณผ์ ๋ฅผ ์์ฑํ ํ ๊ตฌ๊ธํผ์ ์ฒจ๋ถํด ์ ์ถ ๋ถํ๋๋ฆฝ๋๋ค.
โข
๊ธฐ์กด ์๋ฃ ํ์์ ๊ฒฝ์ฐ ๊ณผ์ ๋ฅผ ์์ฑํ ํ ์ด๋ฉ์ผ๋ก ์ ์ถ ๋ถํ๋๋ฆฝ๋๋ค.
์ด๋ฐ ํ์๊ณผ ํจ๊ปํ๊ณ ์ถ์ด์!
์ค๋์ค ๋ฅ๋ฌ๋์ ๋ฌด์ฒ ์ฌ๋ฐ์ง๋ง, ๋ ํํธ์ผ๋ก๋ ์์ํ ๋ถ์ผ์
๋๋ค. ์์ฑ์ ๋ํด์๋, ๋ฅ๋ฌ๋์ ๋ํด์๋ ๊ณต๋ถํด์ผ ํ ๋ถ๋ถ์ด ๋ง์ต๋๋ค. ์ด์ 10์ฃผ๊ฐ ๋ฅ ๋ค์ด๋ธ ํ๋์ ์ด์ ์ ์ผ๋ก ์ํ์ค ์ ์๋ ๋ถ๋ค๊ณผ ํจ๊ปํ๊ณ ์ถ์ต๋๋ค. ๋ํ CNN, RNN ๋ฑ ๋ฅ๋ฌ๋ ๊ธฐ์ด ๊ฐ๋
์ ์์งํ์ ๋ถ๋ค์ด์
จ์ผ๋ฉด ์ข๊ฒ ์ต๋๋ค. ์ฌ๋ฌ๋ถ์ ์ฑ๋ฆฐ์ง๋ฅผ ๋๊ธฐ ์ํด ์ ๋ ์ญ์ ์ต์ ์ ๋คํ๊ฒ ์ต๋๋ค.
์ฃผ์ฐจ๋ณ ํ๋ ๊ณํ
์ฃผ์ฐจ | ํ๋ ๋ด์ฉ |
1์ฃผ์ฐจ | OT: What is Audio Deep Learning? |
2์ฃผ์ฐจ | Audio Classification & Audio data Augmentation | ํ๋ก์ ํธ ์ฃผ์ ๋
ผ์ |
3์ฃผ์ฐจ | Speech Recognition | ์ฃผ์ ํ์ ๋ฐ ๋ฐ์ดํฐ ์์ง |
4์ฃผ์ฐจ | Text-to-Speech | ํ๋ก์ ํธ (1) |
5์ฃผ์ฐจ | ํ๋ก์ ํธ (2) |
6์ฃผ์ฐจ | ํ ์ธ๋ฏธ๋ |
7์ฃผ์ฐจ | ํ๋ก์ ํธ (3) |
8์ฃผ์ฐจ | ํ๋ก์ ํธ (4) |
9์ฃผ์ฐจ | ํ๋ก์ ํธ ๋ฐ๋ชจ ์ค๋น |
10์ฃผ์ฐจ | ํ๋ก์ ํธ ๋ฆฌํ์ค |