Search
Duplicate

Computer Vision Application

๋ฉ˜ํ† 
๊ณผ์ œ ๋ฐ ๋ฉด์ ‘
๊ณผ์ œ O | ๋ฉด์ ‘ X
์„ธ์…˜ ์‹œ๊ฐ„
์„ธ์…˜ ์‹œ๊ฐ„ ํ† ์š”์ผ ์˜คํ›„ 2์‹œ - 4์‹œ
๋ชจ์ง‘ ์ธ์›
๋ชจ์ง‘์ธ์› 6๋ช…

Computer Vision Application 2024 ๋ด„ ์ปค๋ฆฌํ˜๋Ÿผ

๋ชจ์ง‘ ์ธ์› 6๋ช… (2๊ฐœ ํŒ€)
ํ™œ๋™ ์‹œ๊ฐ„ ๋งค์ฃผ ํ† ์š”์ผ ์˜คํ›„ 2์‹œ - 4์‹œ
ํ™œ๋™ ๋ฐฉ๋ฒ• ๋งค์ฃผ ํ† ์š”์ผ ๋Œ€๋ฉด ์ •๊ธฐ ์„ธ์…˜ + ์ฃผ์ค‘ ํŒ€๋ณ„ ์ž์œ ๋ฏธํŒ…
โ€ป 2์ฃผ์ฐจ ์„ธ์…˜์˜ ๊ฒฝ์šฐ, ์˜ˆ์™ธ์ ์œผ๋กœ ํ† ์š”์ผ ์˜ค์ „ ๋˜๋Š” ์ผ์š”์ผ ์˜คํ›„ ์ง„ํ–‰ ์˜ˆ์ •

์–ด๋–ค ๊ฒƒ์„ ํ•˜๋‚˜์š”?

์ปดํ“จํ„ฐ ๋น„์ „์—๋Š” ์ •๋ง ๋‹ค์–‘ํ•œ ์„ธ๋ถ€ ํƒœ์Šคํฌ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ์ค‘์—์„œ ์ด๋ฒˆ ๊ธฐ์ˆ˜๋Š” ์•„๋ž˜ ๋‚ด์šฉ์„ ์ค‘์‹ฌ์œผ๋กœ ํ”„๋กœ์ ํŠธ๋ฅผ ๊ธฐํšํ•˜๊ณ  ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
Classfication
โ€ข
Object Detection
โ€ข
Image Segmentation
โ€ข
Diffusion-Based Image Generation
ํ•˜๋‚˜์˜ ํƒœ์Šคํฌ๋งŒ ์ง„ํ–‰ํ•  ์ˆ˜๋„ ์žˆ์ง€๋งŒ, ์ฃผ์ œ์— ๋”ฐ๋ผ ์—ฌ๋Ÿฌ ํƒœ์Šคํฌ๊ฐ€ ๊ฒฐํ•ฉ๋  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œ์‚ฌ์ง„ ์† ๋งˆ์Šคํฌ ์“ด ์‚ฌ๋žŒ์˜ ์–ผ๊ตด ์ƒ์„ฑโ€์ด๋ผ๋Š” ์ฃผ์ œ๋กœ ํ”„๋กœ์ ํŠธ๋ฅผ ์ง„ํ–‰ํ•œ๋‹ค๋ฉด, ํ”„๋กœ์ ํŠธ ํŒŒ์ดํ”„๋ผ์ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฐ ๊ฒƒ์„ ํ•ด์š”!

โ€ข
10์ฃผ๊ฐ„ ๋ชฐ์ž…ํ•˜์—ฌ ์ˆ˜ํ–‰ํ•˜๊ธฐ์— ์ ํ•ฉํ•œ ์ฃผ์ œ๋ฅผ ์„ ์ •ํ•˜๊ณ  ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์„ฑํ•ด์š”.
โ€ข
ํ”„๋กœ์ ํŠธ๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ๊ด€๋ จ ๋ชจ๋ธ๋“ค์„ ๋ฆฌ์„œ์น˜ํ•˜๊ณ  ํ† ๋ก ํ•ด์š”.
โ€ข
์กด์žฌํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋ถˆ๋Ÿฌ์˜ค๊ฑฐ๋‚˜, ์ง์ ‘ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•ด์„œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ ๋ณด์•„์š”.
โ€ข
์ˆ˜ํ–‰ํ•œ ํ”„๋กœ์ ํŠธ๋ฅผ ์ •๋ฆฌํ•˜๊ณ , ๋ฐ๋ชจ๋ฅผ ์ค€๋น„ํ•˜๊ณ , ๋ฐœํ‘œํ•ด์š”.
โ€ข
๊ฐ๊ธฐ ๋‹ค๋ฅธ ๋ฐฐ๊ฒฝ์„ ๊ฐ€์ง„ ํŒ€์›์ด ๋ชจ์—ฌ์„œ ๋จธ๋ฆฌ๋ฅผ ๋งž๋Œ€๊ณ  ํ•จ๊ป˜ ์„ฑ์žฅํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ด์š”!

์ด๋Ÿฐ ๊ฒƒ์€ ํ•˜์ง€ ์•Š์•„์š”!

โ€ข
Text Processing์ด ๋ฉ”์ธ์ด ๋˜๋Š” ํ”„๋กœ์ ํŠธ๋Š” ํ•˜์ง€ ์•Š์•„์š”. (Natural Language Processing ํŒ€์ด ์žˆ์–ด์š”!)
โ—ฆ
๋‹จ, ํŒŒ์ดํ”„๋ผ์ธ์˜ ๊ตฌ์„ฑ์š”์†Œ ์ค‘ ํ•˜๋‚˜๋กœ๋Š” ๋“ค์–ด๊ฐˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ชจ๋ธ์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ˆ˜์ •ํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ชจ๋ธ์„ ๋งŒ๋“ค์ง€ ์•Š์•„์š”. (Deep Learning Architecture ํŒ€์ด ์žˆ์–ด์š”!)
โ€ข
Pose Estimation, 3D Generation ๋“ฑ์˜ ์ฃผ์ œ๋Š” ํ™•์žฅ์„ฑ๊ณผ ์„ ํ˜ธ๋„ ๋“ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์ง„ํ–‰ํ•˜์ง€ ์•Š์•„์š”.
โ€ข
ํŠน์ • ํƒœ์Šคํฌ์˜ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋Š” ๊ฒƒ๋งŒ์„ ๋ชฉํ‘œ๋กœ ํ•˜์ง€ ์•Š์•„์š”. (๋Œ€ํšŒ๊ฐ€ ์•„๋‹ˆ์—์š”!)

์„ ๋ฐœ ๊ธฐ์ค€

์ด๋ฒˆ ๊ธฐ์ˆ˜๋Š” ํ•™๊ธฐ ์ค‘์— ์ง„ํ–‰๋œ๋‹ค๋Š” ์ ์„ ๊ณ ๋ คํ•˜์—ฌ, ์ž…๋ฌธ์ž๋ณด๋‹ค๋Š” ๋”ฅ๋Ÿฌ๋‹ ๊ด€๋ จ ๊ฒฝํ—˜(์ˆ˜์—…, ํ”„๋กœ์ ํŠธ ๋“ฑ)์ด ์žˆ๋Š” ๋ถ„์„ ๋Œ€์ƒ์œผ๋กœ ์„ ๋ฐœํ•ฉ๋‹ˆ๋‹ค. ๊ผญ ์ปดํ“จํ„ฐ ๋น„์ „์ด ์•„๋‹ˆ์–ด๋„ ๊ดœ์ฐฎ์Šต๋‹ˆ๋‹ค๋งŒ, ๋”ฅ๋Ÿฌ๋‹์— ๊ด€ํ•œ ๊ธฐ์ดˆ ์ง€์‹, ๋…ผ๋ฌธ ๋ฆฌ๋”ฉ ๋ฐ ๊ธฐ๋ณธ์ ์ธ ์ฝ”๋“œ ์ž‘์„ฑ ๋Šฅ๋ ฅ์„ ํ•„์š”๋กœ ํ•ฉ๋‹ˆ๋‹ค.
๊ทธ๋Ÿฌ๋‚˜, ์ด๋Ÿฌํ•œ ๊ธฐ๋ณธ์ ์ธ ์š”๊ตฌ์‚ฌํ•ญ์ด ๊ฐ–์ถฐ์ ธ ์žˆ๋‹ค๊ณ  ํŒ๋‹จ๋  ๊ฒฝ์šฐ ์ ˆ๋Œ€๋กœ ๋Šฅ๋ ฅ๋Œ€๋กœ ์ค„ ์„ธ์›Œ์„œ ์„ ๋ฐœํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ํŒ€์œผ๋กœ์จ ์ข‹์€ ํ”„๋กœ์ ํŠธ๋ฅผ ๋งŒ๋“ค์–ด ๊ฐ€๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‹ค์–‘ํ•œ ๋ฐฐ๊ฒฝ๊ณผ ๊ฐ•์ ์„ ๊ฐ€์ง„ ์‚ฌ๋žŒ์ด ํ•จ๊ป˜ํ•˜๋Š” ๊ฒƒ์ด ๋” ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.
๋˜ํ•œ, ์ง€์›์ž๊ฐ€ ์ฃผ๋‹น ์ตœ์†Œ 6์‹œ๊ฐ„ ์ด์ƒ์˜ ์‹œ๊ฐ„ ํˆฌ์ž๋ฅผ ํ•  ์ˆ˜ ์žˆ์Œ์„ ๊ฐ€์ •ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ ํ•™์—… ๋˜๋Š” ๊ฐœ์ธ์ ์ธ ์ผ๋กœ ์ธํ•ด ๋ฐ”์˜๋‹ค๋ฉด, ํ”„๋กœ์ ํŠธ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ํŒ€์›๋“ค์—๊ฒŒ ํ”ผํ•ด๋ฅผ ์ฃผ๋Š” ๊ฒƒ์ด๋ฏ€๋กœ ์ง€์›์„ ์‚ผ๊ฐ€ ์ฃผ์„ธ์š”!

์ €๋Š” ๋ฌธ๊ณผ์ธ๋ฐ์š”โ€ฆ

โ€ข
์˜คํžˆ๋ ค ์ข‹์Šต๋‹ˆ๋‹ค. ๋ณธ์ธ๋งŒ์ด ๊ฐ€์ง„ ๋…ํŠนํ•จ์€ ๋ถ„๋ช… ํ”„๋กœ์ ํŠธ ํ๋ฆ„์— ๋„์›€์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.
โ€ข
ํ”„๋กœ์ ํŠธ ์ง„ํ–‰์— ํ•„์š”ํ•œ ๋”ฅ๋Ÿฌ๋‹ ์ง€์‹์€ ๋ฉ˜ํ† ์—๊ฒŒ ๋ฌผ์–ด๋ณด์„ธ์š”!
โ€ข
โ€˜๋‚˜๋งŒ์˜ ๋ฐฉ์‹์œผ๋กœโ€™ ํ”„๋กœ์ ํŠธ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ”(๋””์ž์ธ, ์Šคํ† ๋ฆฌ๋ผ์ธ ๋“ฑ..)๋ฅผ ์ƒ๊ฐํ•ด์„œ, ๊ณผ์ œ 1์— ์ž˜ ์–ดํ•„ํ•ด ์ฃผ์„ธ์š”.

์ €๋Š” ์ฝ”๋”ฉ์„ ์ž˜ํ•˜๋Š”๋ฐ ์•„๋ฌด ์ด์ ๋„ ์—†๋Š” ๊ฑด๊ฐ€์š”?

โ€ข
๋‹น์—ฐํžˆ, ํ’๋ถ€ํ•œ ๋”ฅ๋Ÿฌ๋‹ ์ง€์‹์„ ๊ฐ–์ท„๊ฑฐ๋‚˜ ์ฝ”๋”ฉ์„ ์ž˜ํ•œ๋‹ค๋ฉด ํŒ€์— ๊ผญ ํ•„์š”ํ•œ ์ธ์›์ž…๋‹ˆ๋‹ค.
โ€ข
๋‚จ๋“ค๋ณด๋‹ค ์›”๋“ฑํžˆ ์ž˜ํ•œ๋‹ค๋ฉด, ๋†’์€ ํ™•๋ฅ ๋กœ ์„ ๋ฐœ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ™œ๋™ ๊ณ„ํš

์ „๋ฐ˜๊ธฐ (1~4์ฃผ์ฐจ)

๋ฉ˜ํ†  ์„ธ์…˜ (30๋ถ„), ํ”„๋กœ์ ํŠธ ์„ธ์…˜ (90๋ถ„)์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.
ํ”„๋กœ์ ํŠธ ์„ธ์…˜์—์„œ๋Š” ํŒ€๋ณ„ ์ฃผ์ œ ๊ณต์œ  ๋ฐ ํ”ผ๋“œ๋ฐฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ, ์ฃผ์ œ๋ฅผ ์„ ์ •ํ•˜๊ณ  ์ด์— ๋งž๋Š” ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
๋ฉ˜ํ†  ์„ธ์…˜์—์„œ๋Š” ํ”„๋กœ์ ํŠธ์— ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๋ชจ๋ธ๋“ค์„ ๋ฆฌ์„œ์น˜ํ•˜๊ณ , ๋ถˆ๋Ÿฌ์˜ค๊ณ , ํ•™์Šต์‹œํ‚ค๊ณ , ๊ฒฐ๊ณผ๋ฌผ์„ ํ™•์ธํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๋‹ค๋ฃน๋‹ˆ๋‹ค.

ํ›„๋ฐ˜๊ธฐ (5~9์ฃผ์ฐจ)

์ „๋ฐ˜๊ธฐ์— ์„ ์ •ํ•œ ์ฃผ์ œ ๋ฐ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ”„๋กœ์ ํŠธ๋ฅผ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
ํ”„๋กœ์ ํŠธ ์„ธ์…˜๋งŒ ์ง„ํ–‰ํ•˜๋ฉฐ, ํŒ€์› ๊ฐ„ ์ ๊ทน์ ์ธ ํ† ๋ก  ๋ฐ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•œ ์™„์„ฑ๋„ ๋†’์€ ํ”„๋กœ์ ํŠธ ์ˆ˜ํ–‰์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
์ฃผ์ฐจ
ํ™œ๋™ ๋‚ด์šฉ [ ํ”„๋กœ์ ํŠธ ์„ธ์…˜ | ๋ฉ˜ํ†  ์„ธ์…˜ ]
1์ฃผ์ฐจ
OT | ์ง€๋‚œ ๊ธฐ์ˆ˜ ํ”„๋กœ์ ํŠธ ์†Œ๊ฐœ
2์ฃผ์ฐจ
์ฃผ์ œ ์„ ์ • (1) | ์ฝ”๋“œ ์„ธ์…˜ (1): ๋ชจ๋ธ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ (Github, HuggingFace)
3์ฃผ์ฐจ
์ฃผ์ œ ์„ ์ • (2) | ์ฝ”๋“œ ์„ธ์…˜ (2): Data preprocessing & Visualization
4์ฃผ์ฐจ
ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์„ฑ | ์ฝ”๋“œ ์„ธ์…˜ (3): Traning & Hyperparameter Tuning
5์ฃผ์ฐจ
๊ด€๋ จ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฐ ํŒ€ ์„ธ๋ฏธ๋‚˜ ์ค€๋น„
6์ฃผ์ฐจ
๊ตฌํ˜„ ๋ฐ ํ”ผ๋“œ๋ฐฑ (1)
7์ฃผ์ฐจ
๊ตฌํ˜„ ๋ฐ ํ”ผ๋“œ๋ฐฑ (2)
8์ฃผ์ฐจ
๊ตฌํ˜„ ๋ฐ ํ”ผ๋“œ๋ฐฑ (3)
9์ฃผ์ฐจ
์ตœ์ข… ์ •๋ฆฌ ๋ฐ ๋ฆฌํ—ˆ์„ค ์ค€๋น„
10์ฃผ์ฐจ
์˜คํ”ˆ ์„ธ๋ฏธ๋‚˜

์‚ฌ์ „ ๊ณผ์ œ ์•ˆ๋‚ด

deep daiv. ์ˆ˜๋ฃŒ ๊ฒฝํ—˜์ด ์žˆ๋Š” ํŒ€์›์˜ ๊ฒฝ์šฐ, ํ”„๋กœ์ ํŠธ๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ๋Šฅ๋ ฅ์ด ๊ฐ–์ถฐ์ ธ ์žˆ๋‹ค๊ณ  ํŒ๋‹จํ•˜์—ฌ ํฐ ๊ฐ€์‚ฐ์ ์„ ๋ถ€์—ฌํ•  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜. ๊ธฐ์กด ํŒ€์›์ด๋ผ๊ณ  ํ•ฉ๊ฒฉ์„ ์™„์ „ํžˆ ๋ณด์žฅํ•˜์ง€๋Š” ๋ชปํ•˜๋ฏ€๋กœ, ๊ณผ์ œ๋ฅผ ์ดํ–‰ํ•ด ์ฃผ์‹ค ๊ฒƒ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค!
๋ชจ๋“  ๊ณผ์ œ๋Š” ๋…ธ์…˜ ํŽ˜์ด์ง€์— ์ž‘์„ฑ ํ›„ ๊ณต์œ  โ†’ ๊ฒŒ์‹œ โ†’ ์›น์— ๊ฒŒ์‹œ, ์ดํ›„ ๊ฒŒ์‹œํ•œ ํŽ˜์ด์ง€ ๋งํฌ๋ฅผ ์ œ์ถœํ•ด์ฃผ์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค.
์‹ ๊ทœ ํŒ€์›์˜ ๊ฒฝ์šฐ, ์ง€์›์„œ ๊ณผ์ œ ์ œ์ถœ๋ž€์— ๊ณผ์ œ ํŽ˜์ด์ง€ ๋งํฌ๋ฅผ ์ž…๋ ฅํ•˜์—ฌ ์ œ์ถœํ•ด ์ฃผ์„ธ์š”!

๊ณผ์ œ 1 (ํ•„์ˆ˜)

๊ณผ์ œ 1์€ ์ •์„ฑํ‰๊ฐ€์ž…๋‹ˆ๋‹ค. ์ง€์›์ž์˜ ๋ฐฐ๊ฒฝ ๋ฐ ๊ธฐ๋ณธ์ ์ธ ๋”ฅ๋Ÿฌ๋‹ ์ง€์‹ ๊ด€๋ จ ์งˆ๋ฌธ์„ ํ†ตํ•ด, ์ง€์›์ž๊ฐ€ 10์ฃผ๊ฐ„ ๋ชฐ์ž…ํ•˜์—ฌ ์„ฑ๊ณต์ ์œผ๋กœ ํŒ€ ํ”„๋กœ์ ํŠธ๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์„ ์ง€ ํŒ๋‹จํ•ฉ๋‹ˆ๋‹ค. ์‹ ๊ทœ ํŒ€์›์˜ ๊ฒฝ์šฐ, ์ง€์›์„œ์˜ ์งˆ๋ฌธ๊ณผ ๊ฒน์น˜๋Š” ๋ฌธํ•ญ์ด ์ผ๋ถ€ ์žˆ์œผ๋‚˜ ๋ณธ ๊ณผ์ œ์—์„œ ์ž‘์„ฑํ•œ ๋‚ด์šฉ์„ ์ค‘์ ์ ์œผ๋กœ ๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ์ง€์›์„œ์— ์ž‘์„ฑํ•œ ๋‚ด์šฉ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ฌ์ง„ ๋“ฑ์˜ ์ž๋ฃŒ๋ฅผ ํ†ตํ•ด ์„ค๋ช…ํ•ด ์ฃผ์„ธ์š”. ๋‹ต๋ณ€ ์–‘์‹ ๋ฐ ๊ธ€์ž ์ˆ˜ ์ œํ•œ์€ ์—†์Šต๋‹ˆ๋‹ค.
๊ธฐ์กด ํŒ€์›์˜ ๊ฒฝ์šฐ, ์ด์ „ ๊ธฐ์ˆ˜์— ์ง„ํ–‰ํ–ˆ๋˜ ํ”„๋กœ์ ํŠธ๋ฅผ ํ† ๋Œ€๋กœ Question 1๋ฒˆ์— ์ž‘์„ฑํ•ด ์ฃผ์‹œ๊ณ , 2, 3๋ฒˆ์€ ์ž์œ ๋กญ๊ฒŒ ์ž‘์„ฑํ•ด ์ฃผ์„ธ์š”.
์‹ ๊ทœ ํŒ€์›์˜ ๊ฒฝ์šฐ, ์ง€์›์„œ์— ์ž‘์„ฑํ•œ ๋‚ด์šฉ์„ ํ™•์žฅํ•˜์—ฌ Question 1, 2๋ฒˆ์— ์ž‘์„ฑํ•ด ์ฃผ์‹œ๊ณ , 3๋ฒˆ์€ ์ž์œ ๋กญ๊ฒŒ ์ž‘์„ฑํ•ด ์ฃผ์„ธ์š”.

Question 1. ๋”ฅ๋Ÿฌ๋‹ ํ”„๋กœ์ ํŠธ ๊ฒฝํ—˜

๊ผญ ์ปดํ“จํ„ฐ ๋น„์ „์ด ์•„๋‹ˆ์–ด๋„ ๊ดœ์ฐฎ์Šต๋‹ˆ๋‹ค. ๋”ฅ๋Ÿฌ๋‹ ๊ด€๋ จ ์ˆ˜์—…(๋…ํ•™ ํฌํ•จ), ๊ฒฝ์ง„๋Œ€ํšŒ, ๊ณต๋ชจ์ „ ๋˜๋Š” ์ด์ „ ๊ธฐ์ˆ˜ ํ”„๋กœ์ ํŠธ ๋“ฑ์—์„œ ์ˆ˜ํ–‰ํ•œ ๋”ฅ๋Ÿฌ๋‹ ํ”„๋กœ์ ํŠธ ๊ฐœ์š”์™€ ๋ณธ์ธ์˜ ์—ญํ• ์„ ์„œ์ˆ ํ•ด ์ฃผ์„ธ์š”. ๊นƒํ—ˆ๋ธŒ ๋งํฌ ๋˜๋Š” ๋…ธ์…˜ ํŽ˜์ด์ง€ ๋งํฌ๋ฅผ ๊ณต์œ ํ•ด ์ฃผ์…”๋„, ์—ฌ๋Ÿฌ ๊ฐœ๋ฅผ ๋‚˜์—ดํ•ด ์ฃผ์…”๋„ ์ข‹์Šต๋‹ˆ๋‹ค.

Question 2. ๋‚ด๊ฐ€ ๋‚˜์„œ๋ฉด ์ด ์ •๋„ ~

๋”ฅ๋Ÿฌ๋‹ ํ”„๋กœ์ ํŠธ๋ฅผ ์ œ์™ธํ•˜๊ณ , ๋‚˜๋Š” ๋ชฐ์ž…ํ•˜๋ฉด ์ด์ •๋„๊นŒ์ง€ ํ•ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค! ๋ผ๋Š” ๊ฒƒ์„ ์ž‘์„ฑ ํ•ด ์ฃผ์„ธ์š”. ์ฝ”๋”ฉ ๊ด€๋ จ ๊ฒฝํ—˜๋„ ์ข‹๊ณ , ํ•™์  ์ž๋ž‘๋„ ์ข‹์Šต๋‹ˆ๋‹ค. ๋” ๋‚˜์•„๊ฐ€์„œ, ์šด๋™, ์Œ์•…, ๊ธ€์ง“๊ธฐ ๋Œ€ํšŒ ์ˆ˜์ƒ ๊ฒฝํ—˜๋„ ์ข‹์•„์š”. ๋ณธ์ธ์ด ๊ฐ€์žฅ ์ข‹์•„ํ•˜๊ณ , ์ž˜ํ•˜๋Š” ๊ฒƒ์„ ํ–ˆ์„ ๋•Œ์˜ ์ž ์žฌ๋ ฅ์„ ๋งˆ์Œ๊ป ์–ดํ•„ํ•ด ์ฃผ์„ธ์š”.

Question 3. ์ฃผ์ œ ๋˜๋Š” ๊ฐ์˜ค (Optional)

์—ฌ๋Ÿฌ๋ถ„์˜ ํ†ตํ†ต ํŠ€๋Š” ์•„์ด๋””์–ด๋ฅผ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜ํ–‰ํ•˜๊ณ  ์‹ถ์€ ํ”„๋กœ์ ํŠธ๊ฐ€ ์žˆ๋‹ค๋ฉด, ๊ฐ„๋‹จํ•˜๊ฒŒ ์„ค๋ช…ํ•ด ์ฃผ์„ธ์š”.
์ƒ๊ฐ์ด ์ž˜ ๋‚˜์ง€ ์•Š๋Š”๋‹ค๋ฉด, ํ”„๋กœ์ ํŠธ์— ์ž„ํ•˜๋Š” ๊ฐ์˜ค ๋ฐ ๋”ฅ๋‹ค์ด๋ธŒ ํ™œ๋™์„ ํ†ตํ•ด ์–ป๊ณ ์ž ํ•˜๋Š” ๋ฐ”๋ฅผ ๊ฐ„๋‹จํ•˜๊ฒŒ ์ ์–ด์ฃผ์„ธ์š”. (200์ž ์ด๋‚ด)

๊ณผ์ œ 2 (Optional)

๊ณผ์ œ 2๋Š” ์ •๋Ÿ‰ํ‰๊ฐ€์ด๋ฉฐ, ํŠน์ • ์ฃผ์ œ์— ์ ํ•ฉํ•œ ๋ชจ๋ธ์„ ๋ถˆ๋Ÿฌ์™€ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์•Œ์•„๋ณด๋Š” ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๋ชจ์ง‘ ๊ธฐ๊ฐ„์ด ๋Œ€ํ•™๊ต ์ค‘๊ฐ„๊ณ ์‚ฌ ๊ธฐ๊ฐ„์ž„์„ ๊ฐ์•ˆํ•˜์—ฌ, ์ฝ”๋“œ๋ฅผ ์ง์ ‘ ์ž‘์„ฑํ•˜์ง€๋Š” ์•Š๋Š” ๊ฒƒ์œผ๋กœ ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ณธ์ธ์ด ์•„์ง ๋ณธ ๊ณผ์ œ๋ฅผ ์™„๋ฒฝํžˆ ์ดํ•ดํ•  ์ˆ˜ ์—†๋‹ค๊ณ  ํŒ๋‹จํ•œ๋‹ค๋ฉด ์ œ์ถœํ•˜์ง€ ์•Š์œผ์…”๋„ ๊ดœ์ฐฎ์Šต๋‹ˆ๋‹ค. ์•ž์„œ ๋ง์”€๋“œ๋ ธ๋“ฏ ์ ˆ๋Œ€๋กœ ์ปดํ“จํ„ฐ ๋น„์ „ ์ง€์‹์ด ์›”๋“ฑํžˆ ๊ฐ–์ถฐ์ง„ ์‚ฌ๋žŒ๋“ค๋กœ๋งŒ ํŒ€์„ ๊ตฌ์„ฑํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
๊ทธ๋Ÿฌ๋‚˜, ๊ณผ์ œ 2๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š”๋ฐ ์žˆ์–ด ์š”๊ตฌ๋˜๋Š” ๋Šฅ๋ ฅ์€ ๊ฐ ํŒ€์—์„œ ๊ผญ ํ•„์š”ํ•˜๋‹ค๊ณ  ํŒ๋‹จํ•˜์—ฌ, ๋ณธ ๊ณผ์ œ๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•œ ์ƒ์œ„ N๋ช…์˜ ๊ฒฝ์šฐ ๊ณผ์ œ 1๊ณผ ์ƒ๊ด€์—†์ด ์šฐ์„  ์„ ๋ฐœํ•˜๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ๋‹ต๋ณ€ ์–‘์‹ ๋ฐ ๊ธ€์ž ์ˆ˜ ์ œํ•œ์€ ์—†์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ์žฅํ™ฉํ•˜๊ฒŒ ์„ค๋ช…ํ•˜๊ธฐ ๋ณด๋‹ค๋Š” ํ•ต์‹ฌ ์•„์ด๋””์–ด๋งŒ ์ž‘์„ฑํ•ด์ฃผ์„ธ์š”

Background

์šฐ๋ฆฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ด๋ฏธ์ง€์—์„œ ๊ฑด๋ฌผ์„ ์ถ”์ถœํ•˜๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ํƒœ์Šคํฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ ค ํ•ฉ๋‹ˆ๋‹ค.
๋˜ํ•œ, ์ด๋ฏธ์ง€ ๋ฐ Ground Truth ์Œ์ด ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์ฃผ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค.
์ด๋ฏธ์ง€
Segmentation Mask(Ground Truth)

Question 1. ๋ชจ๋ธ ์„ ์ •

(1-1) (5pts) ์šฐ๋ฆฌ๋Š” Github ๋˜๋Š” Hugging Face ๋“ฑ์—์„œ ๋ชจ๋ธ์„ ๋ถˆ๋Ÿฌ์™€ ์ด๋ฏธ์ง€์—์„œ ๊ฑด๋ฌผ์„ ์ถ”์ถœํ•˜๋ ค ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋•Œ, ์‚ฌ์šฉํ•  ๋ชจ๋ธ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๊ณ , ๋ชจ๋ธ ์ถœ์ฒ˜(๋งํฌ)๋ฅผ ์ฒจ๋ถ€ํ•ด ์ฃผ์„ธ์š”. (โ€™๋ชจ๋ธโ€™์ด๋ผ ํ•จ์€, ์•„ํ‚คํ…์ณ ๋ฐ ์‚ฌ์ „ํ•™์Šต ๋œ ๊ฐ€์ค‘์น˜๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค.)
(1-2) (10pts) ๋ชจ๋ธ ์•„ํ‚คํ…์ณ์˜ Backbone์œผ๋กœ CNN ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๊ณผ Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ์ค‘ ์–ด๋–ค ๊ฒƒ์„ ์„ ํƒํ•  ๊ฒƒ์ธ์ง€ ์ œ์‹œํ•˜๊ณ , ๊ทธ ์ด์œ ๋ฅผ ์ž์„ธํžˆ ์„ค๋ช…ํ•ด ์ฃผ์„ธ์š”. (๋‹จ, ๋ชจ๋ธ์˜ Scale์€ ๊ฐ™๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.)

Question 2. ๋ชจ๋ธ ํ•™์Šต

(2-1) (5pts) ์šฐ๋ฆฌ๋Š” ํŠน์ • metric์„ ํ†ตํ•ด ์ถ”๋ก  ๊ฒฐ๊ณผ๊ฐ€ Ground Truth์™€ ์–ผ๋งˆ๋‚˜ ์ผ์น˜ํ•˜๋Š”์ง€ ํŒ๋‹จํ•˜๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋•Œ, ์–ด๋–ค metric์„ ์‚ฌ์šฉํ•  ๊ฒƒ์ธ์ง€, ํ•™์Šต ๊ณผ์ •์—์„œ๋Š” ์–ด๋–ค Loss Function์„ ์‚ฌ์šฉํ•  ๊ฒƒ์ธ์ง€ ์ œ์‹œํ•˜๊ณ  ๊ทธ ์ด์œ ๋ฅผ ์„ค๋ช…ํ•ด ์ฃผ์„ธ์š”.
(2-2) (10pts) ์šฐ๋ฆฌ๋Š” ์ฝ”๋žฉ์„ ์‚ฌ์šฉํ•˜์—ฌ ์•ž์„œ ์ œ์‹œํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ๋ชจ๋ธ์— ํ•™์Šต์‹œํ‚ค๋ ค ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์œ„ ์ด๋ฏธ์ง€๋Š” ๊ณ ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€(1024 x 1024)์ด๊ธฐ ๋•Œ๋ฌธ์—, ๋ฉ”๋ชจ๋ฆฌ ๋ถ€์กฑ์œผ๋กœ ํ•™์Šต์— ์‹คํŒจํ•ฉ๋‹ˆ๋‹ค. ์ด ๋‚œ๊ด€์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์žฅ ์ ์ ˆํ•œ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜๊ณ  ๊ทธ ์ด์œ ๋ฅผ ์„ค๋ช…ํ•ด ์ฃผ์„ธ์š”. (๋‹จ, ๋ชจ๋ธ ๋ฐ GPU๋Š” ๊ต์ฒดํ•  ์ˆ˜ ์—†์œผ๋ฉฐ, ๋‚˜๋จธ์ง€๋Š” ์ž์œ ๋กญ๊ฒŒ ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.)
โ€ข
๋ณ‘๋ ฌ์ ์œผ๋กœ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ์—ฌ๋Ÿฌ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ด๋„ ์ข‹์Šต๋‹ˆ๋‹ค.
โ€ข
๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜๋ฅผ ์˜ˆ์‹œ๋กœ ๋“ค์–ด ์„ค๋ช…ํ•ด๋„ ์ข‹์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์‹œํ•œ ๋ฐฉ๋ฒ•์˜ Side-Effect๊ฐ€ ์žˆ๋‹ค๋ฉด ํ•จ๊ป˜ ์„ค๋ช…ํ•ด ์ฃผ์„ธ์š”.
โ€ป ๋ฉด์ ‘์€ ์‹ค์‹œํ•˜์ง€ ์•Š์œผ๋ฉฐ, ๋™์ ์ž ๋ฐœ์ƒ ์‹œ ๋ชจ๋‘ ์„ ๋ฐœ๋ฉ๋‹ˆ๋‹ค.