NLP 2024 ๊ฒจ์ธ ์ปค๋ฆฌํ๋ผ
๋ชจ์ง ์ธ์ ์ต๋ 2๊ฐ ํ(6๋ช
)
ํ๋ ์๊ฐ ๋งค์ฃผ ํ ์์ผ ์คํ 2์ - 3์
ํ๋ ๋ฐฉ๋ฒ ์ฃผ 1ํ ๋น๋๋ฉด ์ ๊ธฐ ์ธ์
+ ์ฃผ 1ํ ํ์ ํ๋ณ ๋ฏธํ
(๋๋ฉด ๊ถ์ฅ)
ย ํ์ ์ ์ ํ์ ์ ๋๋ฉด ์ ๊ธฐ ์ธ์
์ด ์งํ๋ ์ ์์ต๋๋ค.
ย AI์ ๋ํํ๋ ์๋์ ์ด๊ณ ์๋ค๋ ๊ฒ, ์ผ๋ง๋ ์ ๋๋ ์ผ์ธ๊ฐ์?
ChatGPT์ ๋ฑ์ฅ ์ดํ ์ธ๊ณต์ง๋ฅ์ ๋ํ ๊ด์ฌ์ ํญ๋ฐ์ ์ผ๋ก ์ฆ๊ฐํ์ต๋๋ค. ์ด์ AI๋ ๋ด์ค ๋ฐ์ผ๋ก ๋์ ์ฐ๋ฆฌ์ ์ผ์ ๋ํ ์์๋ ์ค๋ฉฐ๋ค์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ชจ๋ ๋ณํ์ ์ค์ฌ์๋ ์์ฐ์ด ์ฒ๋ฆฌ๋ผ๋ ๊ธฐ์ ์ด ์๋ฆฌ์ก๊ณ ์์ฃ ! ์์ฐ์ด ์ฒ๋ฆฌ๋, ์ธ๊ฐ์ ์ธ์ด๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ๊ณ ํ์ฉํ ์ ์๋๋ก ๋ง๋๋ ๊ธฐ์ ์
๋๋ค. ๊ทธ๋ ๋ค๋ฉด ์์ฐ์ด ์ฒ๋ฆฌ๊ฐ ํน๋ณํ ์ด์ ๋ ๋ฌด์์ผ๊น์? ์ฐ๋ฆฌ์ ์ฌ๊ณ ์ ์ํต์ ๋ชจ๋ ์ธ์ด๋ฅผ ๋งค๊ฐ๋ก ์ด๋ฃจ์ด์ง๋๋ค. ์ธ๊ฐ๊ณผ ๊ฐ์ด ์ธ์ด๋ก ์๊ฐํ๊ณ ๋์ํ๋ ํ๋ก๊ทธ๋จ์ ๋ง๋ค ์ ์๋ค๋ฉด, ์ฐ๋ฆฌ๋ ์ธ์ ๊ฐ ์ธ๊ณต์ง๋ฅ ์ฐ๊ตฌ์ ์ข
์ฐฉ์ง๋ผ๊ณ ๋ถ๋ฆฌ๋ ์ธ๊ณต์ผ๋ฐ์ง๋ฅ, AGI์ ๋๋ฌํ ์ ์์ ๊ฒ์
๋๋ค!
ย ๋ชจ์ง์ธ์๊ณผ ๋์์ด ์ด๋ป๊ฒ ๋๋์?
๋ชจ์ง ์ธ์์ 6~8๋ช
์ผ๋ก ์ต๋ ๋ ํ์ ๊ตฌ์ฑํ์ฌ ํ๋ํฉ๋๋ค. ์ธ๊ณต์ง๋ฅ๊ณผ ์์ฐ์ด์ฒ๋ฆฌ์ ๊ด์ฌ์ด ์๋ ๋ถ์ด๋ผ๋ฉด ๋๊ตฌ๋ ์ง์ํ ์ ์์ต๋๋ค. ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๋ ์น ํฌ๋กค๋ง ๊ฒฝํ์ด ์๋ค๋ฉด ๋์์ด ๋์ง๋ง, ๊ธฐ๋ณธ์ ์ธ ํ์ด์ฌ ์ฝ๋ฉ ๋ฅ๋ ฅ๋ง ์์ด๋ ์ถฉ๋ถํฉ๋๋ค. ํ์ํ ์ง์๊ณผ ๊ธฐ์ ์ daiv.์์ ํจ๊ป ๊ณต๋ถํ๋ฉด ๋ฉ๋๋ค ์ฝ 3๊ฐ์์ ๊ธฐ๊ฐ๋์ ์ง์คํด์ ํ์ตํ๊ณ ์ฑ์ฅ์ ํฅํ ์ด์ ๊ณผ ์์ง๋ง ์๋ค๋ฉด, ์ฃผ์ ํ์ง ๋ง๊ณ ๋์ ํ์ธ์!
ย NLP ํ์ ๋ชฉํ๊ฐ ์ด๋ป๊ฒ ๋๋์?
์ฌ์ค ์ธ๊ณต์ง๋ฅ๊ณผ ์์ฐ์ด์ฒ๋ฆฌ๋ฅผ ๋จ๊ธฐ๊ฐ์ ๊ณต๋ถํ๋ ๊ฑด ์ ๋ง ์ด๋ ค์ด ์ผ์
๋๋ค. ํ์ง๋ง ์ด ๋ถ์ผ์ ๊ธฐ๋ณธ ์๋ฆฌ๋ฅผ ์ดํดํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ๊ธฐํํ ํ๋ก์ ํธ ๊ฒฝํ์ ์๊ธฐ์๋ ๋ถ์กฑํ์ง ์์ ์๊ฐ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค. ํ๋์ ๋ง์น ํ ์ฌ๋ฌ๋ถ์ ์ธ๊ณต์ง๋ฅ๊ณผ ์์ฐ์ด์ฒ๋ฆฌ๊ฐ ๋ฌด์์ธ์ง, ๊ทธ๋ฆฌ๊ณ ์ด ๊ธฐ์ ์ ํ์ฉํ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์๊ฒ ๋ ๊ฒ์
๋๋ค. ์ฌ์ค, ๋๋ฌด ๋ถ๋ด๊ฐ์ง ํ์๋ ์์ต๋๋ค. ์ฌ๋ฌ๋ถ์ด ์์ฐ์ด์ฒ๋ฆฌ์ ํฅ๋ฏธ๋ฅผ ๋๋ผ๊ณ , ์ด ๋ถ์ผ๋ฅผ ๋ ๊น์ด ๊ณต๋ถํด๋ณด๊ณ ์ถ๋ค๋ ์๊ฐ์ ํ๊ฒ ๋๋ค๋ฉด ๊ทธ๊ฒ๋ง์ผ๋ก๋ ์ถฉ๋ถํฉ๋๋ค!
์ฃผ์ฐจ๋ณ ๊ณํ
ํ๋ ๋ด์ฉ๊ณผ ์๊ฐ์ ์งํ ์ํฉ์ ๊ณ ๋ คํ์ฌ ๋ณ๊ฒฝ๋ ์๋ ์์ต๋๋ค.
์ฃผ์ฐจ | ํ๋ ๋ด์ฉ |
1์ฃผ์ฐจ | OT: ๋ฅ๋ฌ๋๊ณผ ์์ฐ์ด์ฒ๋ฆฌ ๊ฐ์ |
2์ฃผ์ฐจ | ์ธ์ฝ๋-๋์ฝ๋ ์ํคํ
์ฒ์ ์ดํ
์
๋ฉ์ปค๋์ฆ |
3์ฃผ์ฐจ | Language Models: GPT, BERT |
4์ฃผ์ฐจ | Large Language Models: PEFT, Prompt Engineering |
5์ฃผ์ฐจ | ๋ฐ์ดํฐ ์์ง๋ถํฐ ์ ์ฒ๋ฆฌ๊น์ง |
6์ฃผ์ฐจ | Huggingface๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ ๊ตฌํ |
7์ฃผ์ฐจ | ํ๋ก์ ํธ ๋ฐ๋ชจ ์ค๋น |
8์ฃผ์ฐจ | ํ๋ก์ ํธ ๋ฐ๋ชจ ์ค๋น |
9์ฃผ์ฐจ | ํ๋ก์ ํธ ๋ฆฌํ์ค |
ํ์ ๊ณผ์
ํ์ ๊ณผ์
Deep Learning ์ํฐํด ์ ๋ฆฌ
์ธ๊ณต์ง๋ฅ๊ณ์ ์ํ์ด์ Yann Lecun, Yoshua Bengio, Geoffrey Hinton์ด ๋จธ์ ๋ฌ๋๊ณผ ๋ฅ๋ฌ๋์ ์ ๋ฐ์ ์๊ฐํ ๋ด์ฉ์ ๋ด์ ๋ค์ด์ฒ์ง์ ๊ฒ์ฌํ ๊ธ์
๋๋ค. ์ธ๊ณต์ง๋ฅ ๋ถ์ผ๋ฅผ ๊ณต๋ถํ๋ค๋ณด๋ฉด, ๋
ผ๋ฌธ์ ์ฝ์ ์ผ์ด ์ ๋ง ๋ง์ต๋๋ค. ์ด ๊ธ์ ์
๋ฌธ์์๊ฒ ์ด ๋ถ์ผ์ ๋ํ ์ ๋ฐ์ ์ธ ์ง์์ ์ ๊ณตํ ๋ฟ๋ง ์๋๋ผ, ๋
ผ๋ฌธ ์ฝ๊ธฐ์ ๋ํ ๋ฌธํฑ์ ๋ฎ์ถ๋ ๋ฐ๋ ๋ง์ ๋์์ด ๋ฉ๋๋ค.
โข
๋
ผ๋ฌธ์ ์ฝ๊ณ , ์ดํดํ ๋ด์ฉ์ ์ ๋ฆฌํด์ฃผ์ธ์. ํ์๊ณผ ๋ถ๋์ ์์ ์
๋๋ค. ํ
ํ๋ฆฟ ๋ณต์ ํ์ฉ ์ํ๋ก ๊ฐ์ธ ๋
ธ์
์ ์์ฑ ํ ๋งํฌ๋ฅผ ๊ณต์ ํฉ๋๋ค.
โข
์ ๋ฆฌํ ๊ธ ๋ฐ์ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์ ๊ด์ฌ์ ๊ฐ๊ฒ ๋ ๊ณ๊ธฐ, ํน๋ณํ ์์ฐ์ด์ฒ๋ฆฌ๋ฅผ ๊ณต๋ถํ๊ณ ์ถ์ ์ด์ ์ ๋ํด์ ๊ฐ๋จํ ๋ง์ํด์ฃผ์ธ์.
๊ณผ์ ๋ฅผ ์์ฑํ ํ ๋
ธ์
๋งํฌ๋ฅผ ๊ตฌ๊ธํผ์ ์ฒจ๋ถํด์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
๊ธฐ์กด daiv. ์๋ฃ ํ์ ๊ณผ์
ํ์ ๊ณผ์
NLP ๋ฌธ์ ์ ์ ๋ฐ ํด๊ฒฐ ๋ฐฉ๋ฒ์ ์๊ฐํด๋ณด๊ธฐ
NLP ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ํด๊ฒฐํ๊ณ ์ถ์ ๋ฌธ์ ๋ฅผ ํ๋ ์ ์ํด์ฃผ์ธ์. ๋ฌธ์ ํด๊ฒฐ์ ์ํ ๋ชจ๋ธ์ ๊ตฌํํ์ ๋, ์ด๋ฅผ ํ๊ฐํ๋ ๋ฐ ์ฌ์ฉํ ์ ์๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
๊ณผ ์งํ(metric)์ ๋ฌด์์ผ๊น์? ์๋ง ์ฌ๋ฌ๋ถ์ด ์ ์ํ ๋ฌธ์ ์ ๋ํ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐ ํ๋๋ฐ ๋ฑ ์๋ง์ ๊ธฐ์กด ๋ฐ์ดํฐ์
๊ณผ ์งํ๊ฐ ์์ ์๋ ์์ต๋๋ค. ๊ทธ๋ ๋ค๋ฉด ๊ธฐ์กด์ ๋ฐ์ดํฐ์
๊ณผ ์งํ๋ ์ด๋ค ๋ฌธ์ ์ ํ๊ณ๋ฅผ ๊ฐ๊ณ ์๋์? ์ด๋ฅผ ๊ทน๋ณตํ๋ ค๋ฉด ์ด๋ป๊ฒ ํด์ผ ํ ๊น์? ์ด ๋ด์ฉ์ ๋ํด์ ํ์๊ณผ ๋ถ๋์ ์ ํ ์์ด, ์์ ๋กญ๊ฒ ์๊ฒฌ์ ์์ฑํด์ฃผ์ธ์.
๊ณผ์ ์ ์ถ์ ์ฌ๋ DM(๊ฐ๋ฏผ์ฌ)์ผ๋ก ์์ฑํ ๋ด์ฉ์ ๋ณด๋ด์ฃผ์๋ฉด ๋ฉ๋๋ค.
ย ๋ง๋
ํ ์ฃผ์ ๊ฐ ๋ ์ค๋ฅด์ง ์๋๋ค๋ฉด, ๊ธฐ์กด์ ํ์คํฌ๋ฅผ ์ฃผ์ ๋ก ์ผ์ ์์ฑํด์ฃผ์
๋ ๋ฉ๋๋ค. ๋ค์์ ๊ณผ์ ์ ๋ํ ๊ฐ๋จํ ์์์
๋๋ค.
๊ธฐ๊ณ ๋ฒ์ญ(Machine Translation, MT)์ ํ๊ฐํ๋ ๋ํ์ ์ธ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์๋ WMT๊ฐ ์์ต๋๋ค. ์ด ๋ฐ์ดํฐ์
์ ๋ฒ์ญ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ ๋ ๋๋ฆฌ ์ฌ์ฉ๋๋ฉฐ, ๋๋ถ๋ถ์ ๋ฐ์ดํฐ๊ฐ ๋ด์ค ๊ธฐ์ฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์๋์๋ค๋ ํน์ง์ด ์์ต๋๋ค. ๊ฒฐ๊ตญ WMT ๋ฐ์ดํฐ์
์ ํน์ ๋๋ฉ์ธ์ ์ง์ค๋์ด ์๋ค๋ ํ๊ณ๋ฅผ ๊ฐ์ต๋๋ค. ๋ด์ค ๊ธฐ์ฌ๋ ์ ํฅํ๋ ์ธ์ด์ ๋ฌธ์ฒด๋ฅผ ์ฌ์ฉํ๋ฏ๋ก ์ผ์ ๋ํ๋ SNS ํ
์คํธ์ ๊ฐ์ด ๋น๊ณต์์ ์ธ ์ธ์ด ์คํ์ผ์ ๋ํ ํ๊ฐ๊ฐ ์ด๋ ต๋ค๋ ๋จ์ ๋ ์์ต๋๋ค.
๊ธฐ๊ณ ๋ฒ์ญ ํ์ง์ ์๋์ผ๋ก ํ๊ฐํ๋ ๋ฉํธ๋ฆญ์๋ BLEU, METEOR, TER ๋ฑ์ด ์์ต๋๋ค. BLEU๋ ๋ํ์ ์ธ ํ๊ฐ์งํ์ด์ง๋ง, -gram precision์ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋์๊ธฐ ๋๋ฌธ์ ๋ฌธ์ฅ์ ์๋ฏธ, ๊ตฌ์กฐ, ๋์์ด ๋ฑ์ ๊ณ ๋ คํ์ง ๋ชปํ๋ค๋ ํ๊ณ๋ฅผ ๊ฐ์ต๋๋ค.