Search
Duplicate

Natural Language Processing

๋ฆฌ๋”
๋ฉด์ ‘
๊ณผ์ œ O | ๋ฉด์ ‘ X
๋ชจ์ง‘ ์ธ์›
๋ชจ์ง‘ ์ธ์› 4๋ช…
๋ถ„๋ฅ˜
์ฑŒ๋ฆฐ์ง€
์„ธ์…˜ ์‹œ๊ฐ„
์ฑŒ๋ฆฐ์ง€ ํ† ์š”์ผ ์˜คํ›„ 2์‹œ - 3์‹œ

NLP 2024 ๊ฒจ์šธ ์ปค๋ฆฌํ˜๋Ÿผ

๋ชจ์ง‘ ์ธ์› ์ตœ๋Œ€ 2๊ฐœ ํŒ€(6๋ช…)
ํ™œ๋™ ์‹œ๊ฐ„ ๋งค์ฃผ ํ† ์š”์ผ ์˜คํ›„ 2์‹œ - 3์‹œ
ํ™œ๋™ ๋ฐฉ๋ฒ• ์ฃผ 1ํšŒ ๋น„๋Œ€๋ฉด ์ •๊ธฐ ์„ธ์…˜ + ์ฃผ 1ํšŒ ํ•„์ˆ˜ ํŒ€๋ณ„ ๋ฏธํŒ…(๋Œ€๋ฉด ๊ถŒ์žฅ)
ย ํŒ€์› ์ „์› ํ˜‘์˜ ์‹œ ๋Œ€๋ฉด ์ •๊ธฐ ์„ธ์…˜์ด ์ง„ํ–‰๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ย AI์™€ ๋Œ€ํ™”ํ•˜๋Š” ์‹œ๋Œ€์— ์‚ด๊ณ  ์žˆ๋‹ค๋Š” ๊ฒƒ, ์–ผ๋งˆ๋‚˜ ์‹ ๋‚˜๋Š” ์ผ์ธ๊ฐ€์š”?
ChatGPT์˜ ๋“ฑ์žฅ ์ดํ›„ ์ธ๊ณต์ง€๋Šฅ์— ๋Œ€ํ•œ ๊ด€์‹ฌ์€ ํญ๋ฐœ์ ์œผ๋กœ ์ฆ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด์ œ AI๋Š” ๋‰ด์Šค ๋ฐ–์œผ๋กœ ๋‚˜์™€ ์šฐ๋ฆฌ์˜ ์ผ์ƒ ๋Œ€ํ™” ์†์—๋„ ์Šค๋ฉฐ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ๋ชจ๋“  ๋ณ€ํ™”์˜ ์ค‘์‹ฌ์—๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ผ๋Š” ๊ธฐ์ˆ ์ด ์ž๋ฆฌ์žก๊ณ  ์žˆ์ฃ ! ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ž€, ์ธ๊ฐ„์˜ ์–ธ์–ด๋ฅผ ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•˜๊ณ  ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“œ๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๊ฐ€ ํŠน๋ณ„ํ•œ ์ด์œ ๋Š” ๋ฌด์—‡์ผ๊นŒ์š”? ์šฐ๋ฆฌ์˜ ์‚ฌ๊ณ ์™€ ์†Œํ†ต์€ ๋ชจ๋‘ ์–ธ์–ด๋ฅผ ๋งค๊ฐœ๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. ์ธ๊ฐ„๊ณผ ๊ฐ™์ด ์–ธ์–ด๋กœ ์ƒ๊ฐํ•˜๊ณ  ๋™์ž‘ํ•˜๋Š” ํ”„๋กœ๊ทธ๋žจ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค๋ฉด, ์šฐ๋ฆฌ๋Š” ์–ธ์  ๊ฐ€ ์ธ๊ณต์ง€๋Šฅ ์—ฐ๊ตฌ์˜ ์ข…์ฐฉ์ง€๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” ์ธ๊ณต์ผ๋ฐ˜์ง€๋Šฅ, AGI์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค!
ย ๋ชจ์ง‘์ธ์›๊ณผ ๋Œ€์ƒ์ด ์–ด๋–ป๊ฒŒ ๋˜๋‚˜์š”?
๋ชจ์ง‘ ์ธ์›์€ 6~8๋ช…์œผ๋กœ ์ตœ๋Œ€ ๋‘ ํŒ€์„ ๊ตฌ์„ฑํ•˜์—ฌ ํ™œ๋™ํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ณต์ง€๋Šฅ๊ณผ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ์— ๊ด€์‹ฌ์ด ์žˆ๋Š” ๋ถ„์ด๋ผ๋ฉด ๋ˆ„๊ตฌ๋‚˜ ์ง€์›ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ๋‚˜ ์›น ํฌ๋กค๋ง ๊ฒฝํ—˜์ด ์žˆ๋‹ค๋ฉด ๋„์›€์ด ๋˜์ง€๋งŒ, ๊ธฐ๋ณธ์ ์ธ ํŒŒ์ด์ฌ ์ฝ”๋”ฉ ๋Šฅ๋ ฅ๋งŒ ์žˆ์–ด๋„ ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค. ํ•„์š”ํ•œ ์ง€์‹๊ณผ ๊ธฐ์ˆ ์€ daiv.์—์„œ ํ•จ๊ป˜ ๊ณต๋ถ€ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค ์•ฝ 3๊ฐœ์›”์˜ ๊ธฐ๊ฐ„๋™์•ˆ ์ง‘์ค‘ํ•ด์„œ ํ•™์Šตํ•˜๊ณ  ์„ฑ์žฅ์„ ํ–ฅํ•œ ์—ด์ •๊ณผ ์˜์ง€๋งŒ ์žˆ๋‹ค๋ฉด, ์ฃผ์ €ํ•˜์ง€ ๋ง๊ณ  ๋„์ „ํ•˜์„ธ์š”!
ย NLP ํŒ€์˜ ๋ชฉํ‘œ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋˜๋‚˜์š”?
์‚ฌ์‹ค ์ธ๊ณต์ง€๋Šฅ๊ณผ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ๋ฅผ ๋‹จ๊ธฐ๊ฐ„์— ๊ณต๋ถ€ํ•˜๋Š” ๊ฑด ์ •๋ง ์–ด๋ ค์šด ์ผ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๋ถ„์•ผ์˜ ๊ธฐ๋ณธ ์›๋ฆฌ๋ฅผ ์ดํ•ดํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ธฐํšํ•œ ํ”„๋กœ์ ํŠธ ๊ฒฝํ—˜์„ ์Œ“๊ธฐ์—๋Š” ๋ถ€์กฑํ•˜์ง€ ์•Š์€ ์‹œ๊ฐ„์ด๋ผ๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. ํ™œ๋™์„ ๋งˆ์นœ ํ›„ ์—ฌ๋Ÿฌ๋ถ„์€ ์ธ๊ณต์ง€๋Šฅ๊ณผ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ๊ฐ€ ๋ฌด์—‡์ธ์ง€, ๊ทธ๋ฆฌ๊ณ  ์ด ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•˜์—ฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ๊ฒŒ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‚ฌ์‹ค, ๋„ˆ๋ฌด ๋ถ€๋‹ด๊ฐ€์งˆ ํ•„์š”๋Š” ์—†์Šต๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ๋ถ„์ด ์ž์—ฐ์–ด์ฒ˜๋ฆฌ์— ํฅ๋ฏธ๋ฅผ ๋Š๋ผ๊ณ , ์ด ๋ถ„์•ผ๋ฅผ ๋” ๊นŠ์ด ๊ณต๋ถ€ํ•ด๋ณด๊ณ  ์‹ถ๋‹ค๋Š” ์ƒ๊ฐ์„ ํ•˜๊ฒŒ ๋œ๋‹ค๋ฉด ๊ทธ๊ฒƒ๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค!

์ฃผ์ฐจ๋ณ„ ๊ณ„ํš

ํ™œ๋™ ๋‚ด์šฉ๊ณผ ์‹œ๊ฐ„์€ ์ง„ํ–‰ ์ƒํ™ฉ์„ ๊ณ ๋ คํ•˜์—ฌ ๋ณ€๊ฒฝ๋  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.
์ฃผ์ฐจ
ํ™œ๋™ ๋‚ด์šฉ
1์ฃผ์ฐจ
OT: ๋”ฅ๋Ÿฌ๋‹๊ณผ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ๊ฐœ์š”
2์ฃผ์ฐจ
์ธ์ฝ”๋”-๋””์ฝ”๋” ์•„ํ‚คํ…์ฒ˜์™€ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜
3์ฃผ์ฐจ
Language Models: GPT, BERT
4์ฃผ์ฐจ
Large Language Models: PEFT, Prompt Engineering
5์ฃผ์ฐจ
๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๋ถ€ํ„ฐ ์ „์ฒ˜๋ฆฌ๊นŒ์ง€
6์ฃผ์ฐจ
Huggingface๋ฅผ ์‚ฌ์šฉํ•œ ๋ชจ๋ธ ๊ตฌํ˜„
7์ฃผ์ฐจ
ํ”„๋กœ์ ํŠธ ๋ฐ๋ชจ ์ค€๋น„
8์ฃผ์ฐจ
ํ”„๋กœ์ ํŠธ ๋ฐ๋ชจ ์ค€๋น„
9์ฃผ์ฐจ
ํ”„๋กœ์ ํŠธ ๋ฆฌํ—ˆ์„ค

ํ•„์ˆ˜ ๊ณผ์ œ

ํ•„์ˆ˜ ๊ณผ์ œ
Deep Learning ์•„ํ‹ฐํด ์ •๋ฆฌ
์ธ๊ณต์ง€๋Šฅ๊ณ„์˜ ์„ํ•™์ด์‹  Yann Lecun, Yoshua Bengio, Geoffrey Hinton์ด ๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ๋”ฅ๋Ÿฌ๋‹์˜ ์ „๋ฐ˜์„ ์†Œ๊ฐœํ•œ ๋‚ด์šฉ์„ ๋‹ด์•„ ๋„ค์ด์ฒ˜์ง€์— ๊ฒŒ์žฌํ•œ ๊ธ€์ž…๋‹ˆ๋‹ค. ์ธ๊ณต์ง€๋Šฅ ๋ถ„์•ผ๋ฅผ ๊ณต๋ถ€ํ•˜๋‹ค๋ณด๋ฉด, ๋…ผ๋ฌธ์„ ์ฝ์„ ์ผ์ด ์ •๋ง ๋งŽ์Šต๋‹ˆ๋‹ค. ์ด ๊ธ€์€ ์ž…๋ฌธ์ž์—๊ฒŒ ์ด ๋ถ„์•ผ์— ๋Œ€ํ•œ ์ „๋ฐ˜์ ์ธ ์ง€์‹์„ ์ œ๊ณตํ•  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋…ผ๋ฌธ ์ฝ๊ธฐ์— ๋Œ€ํ•œ ๋ฌธํ„ฑ์„ ๋‚ฎ์ถ”๋Š” ๋ฐ๋„ ๋งŽ์€ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
โ€ข
๋…ผ๋ฌธ์„ ์ฝ๊ณ , ์ดํ•ดํ•œ ๋‚ด์šฉ์„ ์ •๋ฆฌํ•ด์ฃผ์„ธ์š”. ํ˜•์‹๊ณผ ๋ถ„๋Ÿ‰์€ ์ž์œ ์ž…๋‹ˆ๋‹ค. ํ…œํ”Œ๋ฆฟ ๋ณต์ œ ํ—ˆ์šฉ ์ƒํƒœ๋กœ ๊ฐœ์ธ ๋…ธ์…˜์— ์ž‘์„ฑ ํ›„ ๋งํฌ๋ฅผ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ •๋ฆฌํ•œ ๊ธ€ ๋ฐ‘์— ์ธ๊ณต์ง€๋Šฅ ๋ถ„์•ผ์— ๊ด€์‹ฌ์„ ๊ฐ–๊ฒŒ ๋œ ๊ณ„๊ธฐ, ํŠน๋ณ„ํžˆ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ๋ฅผ ๊ณต๋ถ€ํ•˜๊ณ  ์‹ถ์€ ์ด์œ ์— ๋Œ€ํ•ด์„œ ๊ฐ„๋‹จํžˆ ๋ง์”€ํ•ด์ฃผ์„ธ์š”.
๊ณผ์ œ๋ฅผ ์ž‘์„ฑํ•œ ํ›„ ๋…ธ์…˜ ๋งํฌ๋ฅผ ๊ตฌ๊ธ€ํผ์— ์ฒจ๋ถ€ํ•ด์ฃผ์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค.

๊ธฐ์กด daiv. ์ˆ˜๋ฃŒ ํŒ€์› ๊ณผ์ œ

ํ•„์ˆ˜ ๊ณผ์ œ
NLP ๋ฌธ์ œ ์ •์˜ ๋ฐ ํ•ด๊ฒฐ ๋ฐฉ๋ฒ•์„ ์ƒ๊ฐํ•ด๋ณด๊ธฐ
NLP ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•ด๊ฒฐํ•˜๊ณ  ์‹ถ์€ ๋ฌธ์ œ๋ฅผ ํ•˜๋‚˜ ์ •์˜ํ•ด์ฃผ์„ธ์š”. ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•œ ๋ชจ๋ธ์„ ๊ตฌํ˜„ํ–ˆ์„ ๋•Œ, ์ด๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ง€ํ‘œ(metric)์€ ๋ฌด์—‡์ผ๊นŒ์š”? ์•„๋งˆ ์—ฌ๋Ÿฌ๋ถ„์ด ์ •์˜ํ•œ ๋ฌธ์ œ์— ๋Œ€ํ•œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ ํ•˜๋Š”๋ฐ ๋”ฑ ์•Œ๋งž์€ ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ง€ํ‘œ๊ฐ€ ์—†์„ ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ๊ธฐ์กด์˜ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ง€ํ‘œ๋Š” ์–ด๋–ค ๋ฌธ์ œ์™€ ํ•œ๊ณ„๋ฅผ ๊ฐ–๊ณ  ์žˆ๋‚˜์š”? ์ด๋ฅผ ๊ทน๋ณตํ•˜๋ ค๋ฉด ์–ด๋–ป๊ฒŒ ํ•ด์•ผ ํ• ๊นŒ์š”? ์ด ๋‚ด์šฉ์— ๋Œ€ํ•ด์„œ ํ˜•์‹๊ณผ ๋ถ„๋Ÿ‰์— ์ œํ•œ ์—†์ด, ์ž์œ ๋กญ๊ฒŒ ์˜๊ฒฌ์„ ์ž‘์„ฑํ•ด์ฃผ์„ธ์š”.
๊ณผ์ œ ์ œ์ถœ์€ ์Šฌ๋ž™ DM(๊ฐ•๋ฏผ์žฌ)์œผ๋กœ ์ž‘์„ฑํ•œ ๋‚ด์šฉ์„ ๋ณด๋‚ด์ฃผ์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹ค.
ย ๋งˆ๋•…ํ•œ ์ฃผ์ œ๊ฐ€ ๋– ์˜ค๋ฅด์ง€ ์•Š๋Š”๋‹ค๋ฉด, ๊ธฐ์กด์˜ ํƒœ์Šคํฌ๋ฅผ ์ฃผ์ œ๋กœ ์‚ผ์•„ ์ž‘์„ฑํ•ด์ฃผ์…”๋„ ๋ฉ๋‹ˆ๋‹ค. ๋‹ค์Œ์€ ๊ณผ์ œ์— ๋Œ€ํ•œ ๊ฐ„๋‹จํ•œ ์˜ˆ์‹œ์ž…๋‹ˆ๋‹ค.
๊ธฐ๊ณ„ ๋ฒˆ์—ญ(Machine Translation, MT)์„ ํ‰๊ฐ€ํ•˜๋Š” ๋Œ€ํ‘œ์ ์ธ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์—๋Š” WMT๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ๋ฒˆ์—ญ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•  ๋•Œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋ฉฐ, ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋‰ด์Šค ๊ธฐ์‚ฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ œ์ž‘๋˜์—ˆ๋‹ค๋Š” ํŠน์ง•์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ WMT ๋ฐ์ดํ„ฐ์…‹์€ ํŠน์ • ๋„๋ฉ”์ธ์— ์ง‘์ค‘๋˜์–ด ์žˆ๋‹ค๋Š” ํ•œ๊ณ„๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค. ๋‰ด์Šค ๊ธฐ์‚ฌ๋Š” ์ •ํ–ฅํ™”๋œ ์–ธ์–ด์™€ ๋ฌธ์ฒด๋ฅผ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ ์ผ์ƒ ๋Œ€ํ™”๋‚˜ SNS ํ…์ŠคํŠธ์™€ ๊ฐ™์ด ๋น„๊ณต์‹์ ์ธ ์–ธ์–ด ์Šคํƒ€์ผ์— ๋Œ€ํ•œ ํ‰๊ฐ€๊ฐ€ ์–ด๋ ต๋‹ค๋Š” ๋‹จ์ ๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ํ’ˆ์งˆ์„ ์ž๋™์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋ฉ”ํŠธ๋ฆญ์—๋Š” BLEU, METEOR, TER ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. BLEU๋Š” ๋Œ€ํ‘œ์ ์ธ ํ‰๊ฐ€์ง€ํ‘œ์ด์ง€๋งŒ, nn-gram precision์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๊ณ„๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ๋ฌธ์žฅ์˜ ์˜๋ฏธ, ๊ตฌ์กฐ, ๋™์˜์–ด ๋“ฑ์„ ๊ณ ๋ คํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ํ•œ๊ณ„๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค.