Computer Vision Application 2024 ์ฌ๋ฆ ์ปค๋ฆฌํ๋ผ
๋ชจ์ง ์ธ์ 6~8๋ช
(2๊ฐ ํ)
ํ๋ ์๊ฐ ๋งค์ฃผ ํ ์์ผ ์คํ 2์ - 5์
ํ๋ ๋ฐฉ๋ฒ ๋งค์ฃผ ํ ์์ผ ๋๋ฉด ์ ๊ธฐ ์ธ์
+ ์ฃผ์ค ํ๋ณ ์์ ๋ฏธํ
์ด๋ค ๊ฒ์ ํ๋์?
๋ฅ๋ฌ๋ ์ปดํจํฐ ๋น์ ๋ถ์ผ๋ ๋งค๋
๋๋ผ์ด ์๋๋ก ๋ฐ์ ํ๊ณ ์์ผ๋ฉฐ, CVPR, ICCV์ ๊ฐ์ ์ต๊ณ ์์ค์ ์ปจํผ๋ฐ์ค์์ ๋ฐํ๋๋ ๋ชจ๋ธ๋ค์ ์ฐ๋ฆฌ์ ์์์ ๋ฐ์ด๋๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. Computer Vision Application ํ์ ๋ชฉํ๋, ์ด๋ฌํ ์ต์ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์ปดํจํฐ ๋น์ ๊ธฐ์ ์ ์ ์ฌ๋ ฅ์ ํ์ค ์ธ๊ณ์ ๋ฌธ์ ํด๊ฒฐ์ ์ ์ฉํ๋ ๊ฒ์
๋๋ค. ๋น์ฆ๋์ค์ ํต์ฐฐ๋ ฅ์ ๋ฐํ์ผ๋ก ์ฐฝ์์ ์ธ ์์ด๋์ด๋ฅผ ๋ฐ๊ตดํ๊ณ , ์ด๋ฅผ ์ค์ ๋ก ๊ตฌํํฉ๋๋ค. ์ด ๊ณผ์ ์์ ์์ฐ์ค๋ฝ๊ฒ ์ต์ ์ปดํจํฐ ๋น์ ๊ธฐ์ ์ ๋ํด ๊น์ด ์๊ฒ ์ดํดํ๊ฒ ๋๋ฉฐ, ์ฌ๋ฌ ์ค๋ฌด์ ์ง์์ ์ต๋ํ๊ฒ ๋ ๊ฒ์
๋๋ค.
๋ํ, Top-Down ๋ฐฉ์์ผ๋ก ์งํํฉ๋๋ค. ์ปดํจํฐ๋น์ ์ ์ฌ๋ฌ ํ์คํฌ๋ฅผ ํ๋ํ๋ ์ดํด๋ณด๊ณ ๊ณต๋ถํด๊ฐ๋ ๋ฐฉ์์ด ์๋, ์ค์ ๋น์ฆ๋์ค ์ผ์ด์ค๋ ํ์ค ์ธ๊ณ์ ๋ฌธ์ ๋ฅผ ๋จผ์ ์ ์ํ๊ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํ์ํ ๊ธฐ์ ๋ค์ ์ญ์ผ๋ก ํ๊ตฌํฉ๋๋ค. ์ด๋ ์ต์ ๊ธฐ์ ์ ํ์ฉ ๊ฐ๋ฅ์ฑ๊ณผ ํ๊ณ๋ฅผ ๊น์ด ์ดํดํด ๋ณด๊ณ , ๋จ์ํ ์ง์์ ๋์ดํ๊ณ ์๊ธฐํ๋ ๊ฒ์ด ์๋, ์ด๋ฌํ ๊ธฐ์ ์ด ์ค์ธ๊ณ์์ ์ด๋ค ๊ฐ์น๋ฅผ ๋ง๋ค์ด๋ผ ์ ์๋์ง ์๊ฐํด๋ณด๊ธฐ ์ํจ์
๋๋ค.
๋๋ต์ ์ธ ์์ฃผ์ ๋ ๋ค์๊ณผ ๊ฐ์ด ๋ถ๋ฅํ ์ ์์ต๋๋ค.
โข
Image Processing
โฆ
Classification, Object Detection, Image Segmentation
โฆ
Diffusion-Based Image Generation (e.g. Inpainting, Completion and Super-Resolution)
โฆ
Image Enhancement and Restoration
โข
Video Processing
โฆ
Optical Flow-Based Tasks (e.g. Object Tracking, Depth Estimation, Video Frame Interpolation)
โฆ
Diffusion-Based Video Generation (e.g. Inpainting, Completion and Super-Resolution)
โฆ
Scene Understanding, Video Captioning and Summarization
ํ๋์ ํ์คํฌ๋ง ์งํํ ์๋ ์์ง๋ง, ์ฃผ์ ์ ๋ฐ๋ผ ์ฌ๋ฌ ํ์คํฌ๊ฐ ๊ฒฐํฉ๋ ์๋ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, โ์ฌ์ง ์ ๋ง์คํฌ ์ด ์ฌ๋์ ์ผ๊ตด ์์ฑโ์ด๋ผ๋ ์ฃผ์ ๋ก ํ๋ก์ ํธ๋ฅผ ์งํํ๋ค๋ฉด, ํ๋ก์ ํธ ํ์ดํ๋ผ์ธ์ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑํ ์ ์์ต๋๋ค.
์ด๋ฐ ๊ฒ์ ํด์!
โข
10์ฃผ๊ฐ ๋ชฐ์
ํ์ฌ ์ํํ๊ธฐ์ ์ ํฉํ ์ฃผ์ ๋ฅผ ์ ์ ํ๊ณ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑํฉ๋๋ค.
โข
ํ๋ก์ ํธ๋ฅผ ์ํํ๊ธฐ ์ํด ๊ด๋ จ ๋ชจ๋ธ๋ค์ ๋ฆฌ์์นํ๊ณ ํ ๋ก ํฉ๋๋ค.
โข
์กด์ฌํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ค๊ฑฐ๋, ์ง์ ๋ฐ์ดํฐ๋ฅผ ์์งํด์ ๋ชจ๋ธ์ ํ์ต์์ผ ๋ด
๋๋ค.
โข
์ํํ ํ๋ก์ ํธ๋ฅผ ์ ๋ฆฌํ์ฌ ํ๋ก์ ํธ ํ์ด์ง๋ฅผ ๋ง๋ค๊ณ , ๋ฐ๋ชจ๋ฅผ ์ค๋นํ๊ณ , ๋ฐํํฉ๋๋ค.
โข
๊ฐ๊ธฐ ๋ค๋ฅธ ๋ฐฐ๊ฒฝ์ ๊ฐ์ง ํ์์ด ๋ชจ์ฌ์ ๋จธ๋ฆฌ๋ฅผ ๋ง๋๊ณ ํจ๊ป ์ฑ์ฅํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
์ด๋ฐ ๊ฒ์ ํ์ง ์์์!
โข
๋ชจ๋ธ์ ์ํคํ
์ฒ๋ฅผ ์์ ํ์ฌ ์๋ก์ด ๋ชจ๋ธ์ ๋ง๋ค์ง ์์ต๋๋ค. (Deep Learning Architecture ํ์ด ์์ด์!)
โข
Text Processing์ด ๋ฉ์ธ์ด ๋๋ ํ๋ก์ ํธ๋ ํ์ง ์์ต๋๋ค. (Natural Language Processing ํ์ด ์์ด์!)
โฆ
๋จ, ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑ์์ ์ค ํ๋๋ก๋ ๋ค์ด๊ฐ ์ ์์ต๋๋ค.
โข
ํน์ ํ์คํฌ์ ์ ํ๋๋ฅผ ๋์ด๋ ๊ฒ๋ง์ ๋ชฉํ๋ก ํ์ง ์์ต๋๋ค. (๋ํ๊ฐ ์๋์์!)
์ ๋ฐ ๊ธฐ์ค
์ต์ ๋
ผ๋ฌธ์ ์ํคํ
์ณ ์ฝ๋๋ฅผ ๋ถ๋ฌ์ ํ์ฉํ ์ ์์ด์ผ ํ๋ฏ๋ก, ์
๋ฌธ์๋ณด๋ค๋ ๋ฅ๋ฌ๋ ๊ด๋ จ ๊ฒฝํ(ํ๊ต ์์
, ์จ๋ผ์ธ ์์
, ํ๋ก์ ํธ ๋ฑ)์ด ์๋ ๋ถ์ ๋์์ผ๋ก ์ ๋ฐํฉ๋๋ค. ๊ผญ ์ปดํจํฐ ๋น์ ์ด ์๋์ด๋ ๊ด์ฐฎ์ต๋๋ค๋ง, ๋ฅ๋ฌ๋์ ๊ดํ ๊ธฐ์ด ์ง์, ๋
ผ๋ฌธ ๋ฆฌ๋ฉ ๋ฐ ๊ธฐ๋ณธ์ ์ธ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ํ์๋ก ํฉ๋๋ค.
๊ทธ๋ฌ๋, ์ด๋ฌํ ๊ธฐ๋ณธ์ ์ธ ์๊ตฌ์ฌํญ์ด ๊ฐ์ถฐ์ ธ ์๋ค๊ณ ํ๋จ๋ ๊ฒฝ์ฐ ์ ๋ ๋ฅ๋ ฅ๋๋ก ์ค ์ธ์์ ์ ๋ฐํ์ง ์์ต๋๋ค. ํ๋์ ํ์ผ๋ก์ ์ข์ ํ๋ก์ ํธ๋ฅผ ๋ง๋ค์ด ๊ฐ๊ธฐ ์ํด์๋ ๋ค์ํ ๋ฐฐ๊ฒฝ๊ณผ ๊ฐ์ ์ ๊ฐ์ง ์ฌ๋์ด ํจ๊ปํ๋ ๊ฒ์ด ๋ ์ค์ํฉ๋๋ค. ํนํ, ํ๋ก์ ํธ์ ๊ฐ์น๋ฅผ ๋ค์ํ ์ฒญ์ค์๊ฒ ์ค๋๋ ฅ ์๊ฒ ์ ๋ฌํ ์ ์๋ ๋ฅ๋ ฅ์ ์ค์์ํ๋ฏ๋ก ๊ณผ์ ์ ์ ์ดํํด ์ฃผ์ธ์.
๋ํ, ์ง์์๊ฐ ์ฃผ๋น ์ต์ 8์๊ฐ ์ด์์ ์๊ฐ ํฌ์๋ฅผ ํ ์ ์์์ ๊ฐ์ ํ๊ฒ ์ต๋๋ค. ๋ง์ฝ ํ์
๋๋ ๊ฐ์ธ์ ์ธ ์ผ๋ก ์ธํด ๋ฐ์๋ค๋ฉด, ํ๋ก์ ํธ๋ฅผ ์ํํ๋ ํ์๋ค์๊ฒ ํผํด๋ฅผ ์ฃผ๋ ๊ฒ์ด๋ฏ๋ก ์ง์์ ์ผ๊ฐ ์ฃผ์ธ์!
์ ๋ ๋ฌธ๊ณผ์ธ๋ฐ์โฆ
โข
์คํ๋ ค ์ข์ต๋๋ค. ๋ณธ์ธ๋ง์ด ๊ฐ์ง ๋
ํนํจ์ ๋ถ๋ช
ํ๋ก์ ํธ ํ๋ฆ์ ๋์์ด ๋ ๊ฒ์
๋๋ค.
โข
ํ๋ก์ ํธ ์งํ์ ํ์ํ ๋ฅ๋ฌ๋ ์ง์์ ๋ฉํ ์๊ฒ ๋ฌผ์ด๋ณด์ธ์!
โข
โ๋๋ง์ ๋ฐฉ์์ผ๋กโ ํ๋ก์ ํธ์ ๊ธฐ์ฌํ ์ ์๋ ๋ฐ(๋์์ธ, ์คํ ๋ฆฌ๋ผ์ธ ๋ฑ..)๋ฅผ ์๊ฐํด์, ๊ณผ์ 1์ ์ ์ดํํด ์ฃผ์ธ์.
์ ๋ ์ฝ๋ฉ์ ์ํ๋๋ฐ ์๋ฌด ์ด์ ๋ ์๋ ๊ฑด๊ฐ์?
โข
๋น์ฐํ, ํ๋ถํ ๋ฅ๋ฌ๋ ์ง์์ ๊ฐ์ท๊ฑฐ๋ ์ฝ๋ฉ์ ์ํ๋ค๋ฉด ํ์ ๊ผญ ํ์ํ ์ธ์์
๋๋ค.
โข
๋จ๋ค๋ณด๋ค ์๋ฑํ ์ํ๋ค๋ฉด, ๋์ ํ๋ฅ ๋ก ์ ๋ฐ๋ ๊ฒ์
๋๋ค.
๊ผญ ํ๊ณ ์ถ์๋ฐ ๋ ผ๋ฌธ์ ์ฝ์ด๋ณธ ์ ์ด ์์ด์.
โข
ํ๋ก์ ํธ ๊ฒฝํ์ด๋ ํ์
์ฑ๊ณผ ๋ฑ ๋ค๋ฅธ ํํ์ ์ฐ๊ตฌ/ ํ์ต ๊ฒฝํ์ด ์๋ค๋ฉด ๊ด์ฐฎ์ต๋๋ค.
โข
๋
ผ๋ฌธ์ ์ฌ๋ฌ๋ถ์ ์ดํด์ํค๊ธฐ ์ํด ์ฐ์ฌ์ง ์ ์ ๋ ๊ธ์ด๊ธฐ ๋๋ฌธ์, ๋๋ ค์ํ์ง ์์๋ ๋ฉ๋๋ค.
โข
๋ค๋ง, ๋
ผ๋ฌธ์ ์ฝ๊ณ ์ดํดํ๋ ค๋ ์์ง๊ฐ ์์ด์ผ ํด์.
ํ๋ ๊ณํ
์ ๋ฐ๊ธฐ (1~4์ฃผ์ฐจ)
๋ฉํ ์ธ์
(30๋ถ), ํ๋ก์ ํธ ์ธ์
(90๋ถ)์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
๋ฉํ ์ธ์
์์๋ ํ๋ก์ ํธ์ ์ํํ๋ ๋ฐ ํ์ํ ๋ชจ๋ธ๋ค์ ๋ฆฌ์์นํ๊ณ , ๋ถ๋ฌ์ค๊ณ , ํ์ต์ํค๊ณ , ๊ฒฐ๊ณผ๋ฌผ์ ํ์ธํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ค๋ฃน๋๋ค.
ํ๋ก์ ํธ ์ธ์
์์๋ ํ๋ณ ์ฃผ์ ๊ณต์ ๋ฐ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐ์ผ๋ก ์ฃผ์ ๋ฅผ ์ ์ ํ๊ณ ์ด์ ๋ง๋ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
ํ๋ฐ๊ธฐ (5~9์ฃผ์ฐจ)
์ ๋ฐ๊ธฐ์ ์ ์ ํ ์ฃผ์ ๋ฐ ํ์ดํ๋ผ์ธ์ ๊ธฐ๋ฐ์ผ๋ก ์ธ๋น ํํธ์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฐ ํ๋ก์ ํธ๋ฅผ ์งํํ๋ฉฐ, ํ์ ๊ฐ ์ ๊ทน์ ์ธ ํ ๋ก ๋ฐ ํผ๋๋ฐฑ์ ํตํ ์์ฑ๋ ๋์ ํ๋ก์ ํธ ์ํ์ ๋ชฉํ๋ก ํฉ๋๋ค.
์ต์ข
์ฐ์ถ๋ฌผ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
1.
ํ๋ก์ ํธ ๋ฌธ์ (๋
ธ์
ํ์ด์ง)
2.
3.
ํ๋ก์ ํธ ์ฝ๋
์ฃผ์ฐจ | ํ๋ ๋ด์ฉ [ ํ๋ก์ ํธ ์ธ์
| ๋ฉํ ์ธ์
] |
1์ฃผ์ฐจ | OT | ์ง๋ ๊ธฐ์ ํ๋ก์ ํธ ์๊ฐ |
2์ฃผ์ฐจ | ์ฃผ์ ์ ์ (1) | ์ฝ๋ ์ธ์
(1): Github & Colab Settings |
3์ฃผ์ฐจ | ์ฃผ์ ์ ์ (2) | ์ฝ๋ ์ธ์
(2): Inference & Visualization |
4์ฃผ์ฐจ | ํ์ดํ๋ผ์ธ ๊ตฌ์ฑ | ์ฝ๋ ์ธ์
(3): Traning & Hyperparameter Tuning |
5์ฃผ์ฐจ | ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ (1) | ๊ตฌํ ํผ๋๋ฐฑ (1) & ํ ์ธ๋ฏธ๋ |
6์ฃผ์ฐจ | ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ (2) | ๊ตฌํ ํผ๋๋ฐฑ (2) |
7์ฃผ์ฐจ | ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ (3) | ๊ตฌํ ํผ๋๋ฐฑ (3) |
8์ฃผ์ฐจ | ํ๋ก์ ํธ ๊ตฌํ ๋ง๋ฌด๋ฆฌ | ์ฝ๋ ์ธ์
(4): Project Page Deployment |
9์ฃผ์ฐจ | ํ๋ก์ ํธ ์ต์ข
์ ๋ฆฌ |
10์ฃผ์ฐจ | ๋ฐ๋ชจ ์ค๋น ๋ฐ ์คํ ์ธ๋ฏธ๋ |
11์ฃผ์ฐจ | ํ๋ก์ ํธ ํ๊ณ |
์ฌ์ ๊ณผ์ ์๋ด
๋ชจ๋ ๊ณผ์ ๋ ๋
ธ์
ํ์ด์ง์ ์์ฑ ํ ๊ณต์ โ ๊ฒ์ โ ์น์ ๊ฒ์, ์ดํ ๊ฒ์ํ ํ์ด์ง ๋งํฌ๋ฅผ ์ ์ถํด์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
๊ธฐ์กด ํ์์ ๊ฒฝ์ฐ, ์ด๋์ ๋ ํ๋ก์ ํธ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํ ๋ฅ๋ ฅ์ด ๊ฐ์ถฐ์ ธ ์๋ค๊ณ ํ๋จํ๋ฏ๋ก ๊ณผ์ 2๋ฒ์ ์ ์ถํ์ง ์์ผ์
๋ ๋ฉ๋๋ค. ๊ทธ๋ฌ๋, ํฉ๊ฒฉ์ ์์ ํ ๋ณด์ฅํ์ง๋ ๋ชปํ๋ฏ๋ก ๊ณผ์ 1๋ฒ์ ์ฑ์คํ๊ฒ ์์ฑํด ์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
์ ๊ท ํ์์ ๊ฒฝ์ฐ, ๊ณผ์ 1, 2๋ฒ์ ์์ฑํ์ฌ ์ง์์ ๊ณผ์ ์ ์ถ๋์ ํ์ด์ง ๋งํฌ๋ฅผ ์ ์ถํด ์ฃผ์ธ์!
๊ณผ์ ์ ์ถ ์๋ด
๊ธฐ์กด ํ์ ์ฌ๋ DM (@์ด์ฌ์
)์ผ๋ก ๋
ธ์
ํ์ด์ง ๋งํฌ ์ ์ถ
์ ๊ท ํ์ ๊ตฌ๊ธ ํผ ์ ์ถ
๊ณผ์ 1 (ํ์)
๊ณผ์ 1์ ์ ์ฑํ๊ฐ์
๋๋ค. ์ง์์์ ๋ฐฐ๊ฒฝ ๋ฐ ๊ธฐ๋ณธ์ ์ธ ๋ฅ๋ฌ๋ ์ง์ ๊ด๋ จ ์ง๋ฌธ์ ํตํด, ์ง์์๊ฐ 10์ฃผ๊ฐ ๋ชฐ์
ํ์ฌ ์ฑ๊ณต์ ์ผ๋ก ํ ํ๋ก์ ํธ๋ฅผ ์ํํ ์ ์์ ์ง ํ๋จํฉ๋๋ค. ์ ๊ท ํ์์ ๊ฒฝ์ฐ, ์ง์์์ ์ง๋ฌธ๊ณผ ๊ฒน์น๋ ๋ฌธํญ์ด ์ผ๋ถ ์์ผ๋ ๋ณธ ๊ณผ์ ์์ ์์ฑํ ๋ด์ฉ์ ์ค์ ์ ์ผ๋ก ๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค. ์ง์์์ ์์ฑํ ๋ด์ฉ์ ๊ธฐ๋ฐ์ผ๋ก ์ฌ์ง ๋ฑ์ ์๋ฃ๋ฅผ ํตํด ์ค๋ช
ํด ์ฃผ์ธ์. ๋ต๋ณ ์์ ๋ฐ ๊ธ์ ์ ์ ํ์ ์์ต๋๋ค.
๊ธฐ์กด ํ์์ ๊ฒฝ์ฐ, ์ด์ ๊ธฐ์์ ์งํํ๋ ํ๋ก์ ํธ๋ฅผ ํ ๋๋ก Question 1๋ฒ์ ์์ฑํด ์ฃผ์๊ณ , 2, 3๋ฒ์ ์์ ๋กญ๊ฒ ์์ฑํด ์ฃผ์ธ์.
์ ๊ท ํ์์ ๊ฒฝ์ฐ, ์ง์์์ ์์ฑํ ๋ด์ฉ์ ํ์ฅํ์ฌ Question 1, 2๋ฒ์ ์์ฑํด ์ฃผ์๊ณ , 3๋ฒ์ ์์ ๋กญ๊ฒ ์์ฑํด ์ฃผ์ธ์.
Question 1. ๋ฅ๋ฌ๋ ํ๋ก์ ํธ ๊ฒฝํ
๊ผญ ์ปดํจํฐ ๋น์ ์ด ์๋์ด๋ ๊ด์ฐฎ์ต๋๋ค. ๋ฅ๋ฌ๋ ๊ด๋ จ ์์
(๋
ํ ํฌํจ), ๊ฒฝ์ง๋ํ, ๊ณต๋ชจ์ ๋๋ ์ด์ ๊ธฐ์ ํ๋ก์ ํธ ๋ฑ์์ ์ํํ ๋ฅ๋ฌ๋ ํ๋ก์ ํธ ๊ฐ์์ ๋ณธ์ธ์ ์ญํ ์ ์์ ํด ์ฃผ์ธ์. ๊นํ๋ธ ๋๋ ๋
ธ์
ํ์ด์ง ๋งํฌ๋ฅผ ๊ณต์ ํด ์ฃผ์
๋ ์ข์ต๋๋ค.
Question 2. ๋ด๊ฐ ๋์๋ฉด ์ด ์ ๋!
๋ฅ๋ฌ๋ ํ๋ก์ ํธ๋ฅผ ์ ์ธํ๊ณ , ๋๋ ๋ชฐ์
ํ๋ฉด ์ด์ ๋๊น์ง ํด๋ผ ์ ์๋ค! ๋ผ๋ ๊ฒ์ ์์ฑ ํด ์ฃผ์ธ์. ์ฝ๋ฉ ๊ด๋ จ ๊ฒฝํ๋ ์ข๊ณ , ํ์ ์๋๋ ์ข์ต๋๋ค. ๋ ๋์๊ฐ์, ๋์์ธ, ์ด๋, ์์
, ๋ํ ์์ ๊ฒฝํ๋ ์ข์์. ๋ณธ์ธ์ด ๊ฐ์ฅ ์ข์ํ๊ณ , ์ํ๋ ๊ฒ์ ํ์ ๋์ ์ ์ฌ๋ ฅ์ ๋ง์๊ป ์ดํํด ์ฃผ์ธ์.
Question 3. ์ฃผ์ ๋๋ ๊ฐ์ค
์ฌ๋ฌ๋ถ์ ํตํต ํ๋ ์์ด๋์ด๋ฅผ ๊ธฐ๋ํฉ๋๋ค. ์ํํ๊ณ ์ถ์ ํ๋ก์ ํธ๊ฐ ์๋ค๋ฉด, ๊ฐ๋จํ๊ฒ ์ค๋ช
ํด ์ฃผ์ธ์. ์๊ฐ์ด ์ ๋์ง ์๋๋ค๋ฉด, ํ๋ก์ ํธ์ ์ํ๋ ๊ฐ์ค ๋ฐ ๋ฅ๋ค์ด๋ธ ํ๋์ ํตํด ์ป๊ณ ์ ํ๋ ๋ฐ๋ฅผ ์ ์ด์ฃผ์ธ์.
๊ณผ์ 2 (Optional)
๊ณผ์ 2๋ ์ ๋ํ๊ฐ์ด๋ฉฐ, ํน์ ์ฃผ์ ์ ์ ํฉํ ๋ชจ๋ธ์ ๋ถ๋ฌ์ ํ์ตํ ์ ์๋์ง ์์๋ณด๋ ๊ณผ์ ์
๋๋ค. ์ฝ๋๋ฅผ ์ง์ ์์ฑํ์ง๋ ์์๋ ๊ด์ฐฎ์ผ๋ฉฐ, ๋ณธ์ธ์ด ์์ง ๋ณธ ๊ณผ์ ๋ฅผ ์๋ฒฝํ ์ดํดํ ์ ์๋ค๊ณ ํ๋จํ๋ค๋ฉด ์ ์ถํ์ง ์์ผ์
๋ ์ข์ต๋๋ค. ์์ ๋ง์๋๋ ธ๋ฏ ์ ๋๋ก ์ปดํจํฐ ๋น์ ์ง์์ด ์๋ฑํ ๊ฐ์ถฐ์ง ์ฌ๋๋ค๋ก๋ง ํ์ ๊ตฌ์ฑํ์ง ์์ต๋๋ค.
๊ทธ๋ฌ๋, ๊ณผ์ 2๋ฅผ ์ํํ๋๋ฐ ์์ด ์๊ตฌ๋๋ ๋ฅ๋ ฅ์ ๊ฐ ํ์์ ๊ผญ ํ์ํ๋ค๊ณ ํ๋จํ์ฌ, ๋ณธ ๊ณผ์ ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํ ์์ 2๋ช
์ ๊ฒฝ์ฐ ๊ณผ์ 1๊ณผ ์๊ด์์ด ์ฐ์ ์ ๋ฐํ๋๋ก ํ๊ฒ ์ต๋๋ค. ๋ต๋ณ ์์ ๋ฐ ๊ธ์ ์ ์ ํ์ ์์ต๋๋ค. ๋ค๋ง, ์ฅํฉํ๊ฒ ์ค๋ช
ํ๊ธฐ ๋ณด๋ค๋ ํต์ฌ ์์ด๋์ด๋ง ์์ฑํด์ฃผ์ธ์
Background
์ฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ ์ด๋ฏธ์ง์์ ๊ฑด๋ฌผ์ ์ถ์ถํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ์ธ๊ทธ๋ฉํ
์ด์
ํ์คํฌ๋ฅผ ์ํํ๋ ค ํฉ๋๋ค. ๋ํ, ์ด๋ฏธ์ง ๋ฐ Ground Truth ์์ด ํ์ต์ฉ ๋ฐ์ดํฐ์
์ผ๋ก ์ฃผ์ด์ ธ ์์ต๋๋ค.
์ด๋ฏธ์ง
Segmentation Mask (Ground Truth)
Question 1. ๋ชจ๋ธ ์ ์
(1-1) (5pts) ์ฐ๋ฆฌ๋ Github ๋๋ Hugging Face ๋ฑ์์ ๋ชจ๋ธ์ ๋ถ๋ฌ์ ์ด๋ฏธ์ง์์ ๊ฑด๋ฌผ์ ์ถ์ถํ๋ ค ํฉ๋๋ค. ์ด ๋, ์ฌ์ฉํ ๋ชจ๋ธ์ ๋ํด ์ค๋ช
ํ๊ณ , ๋ชจ๋ธ ์ถ์ฒ(๋งํฌ)๋ฅผ ์ฒจ๋ถํด ์ฃผ์ธ์. (โ๋ชจ๋ธโ์ด๋ผ ํจ์, ์ํคํ
์ณ ๋ฐ ์ฌ์ ํ์ต ๋ ๊ฐ์ค์น๋ฅผ ๋ชจ๋ ํฌํจํ๋ ๊ฐ๋
์
๋๋ค.)
(1-2) (10pts) ๋ชจ๋ธ ์ํคํ
์ณ์ Backbone์ผ๋ก CNN ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ ์ค ์ด๋ค ๊ฒ์ ์ ํํ ๊ฒ์ธ์ง ์ ์ํ๊ณ , ๊ทธ ์ด์ ๋ฅผ ์์ธํ ์ค๋ช
ํด ์ฃผ์ธ์. (๋จ, ๋ชจ๋ธ์ Scale์ ๊ฐ๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.)
Question 2. ๋ชจ๋ธ ํ์ต
(2-1) (5pts) ์ฐ๋ฆฌ๋ ํน์ metric์ ํตํด ์ถ๋ก ๊ฒฐ๊ณผ๊ฐ Ground Truth์ ์ผ๋ง๋ ์ผ์นํ๋์ง ํ๋จํ๋ ค๊ณ ํฉ๋๋ค. ์ด ๋, ์ด๋ค metric์ ์ฌ์ฉํ ๊ฒ์ธ์ง, ํ์ต ๊ณผ์ ์์๋ ์ด๋ค Loss Function์ ์ฌ์ฉํ ๊ฒ์ธ์ง ์ ์ํ๊ณ ๊ทธ ์ด์ ๋ฅผ ์ค๋ช
ํด ์ฃผ์ธ์.
(2-2) (10pts) ์ฐ๋ฆฌ๋ ์ฝ๋ฉ์ ์ฌ์ฉํ์ฌ ์์ ์ ์ํ ๋ฐ์ดํฐ์
์ ๋ชจ๋ธ์ ํ์ต์ํค๋ ค ํฉ๋๋ค. ํ์ง๋ง ์ ์ด๋ฏธ์ง๋ ๊ณ ํด์๋์ ์ด๋ฏธ์ง(1024 x 1024)์ด๊ธฐ ๋๋ฌธ์, ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ์ผ๋ก ํ์ต์ ์คํจํฉ๋๋ค. ์ด ๋๊ด์ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฐ์ฅ ์ ์ ํ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ ๊ทธ ์ด์ ๋ฅผ ์ค๋ช
ํด ์ฃผ์ธ์. (๋จ, ๋ชจ๋ธ ๋ฐ GPU๋ ๊ต์ฒดํ ์ ์์ผ๋ฉฐ, ๋๋จธ์ง๋ ์์ ๋กญ๊ฒ ๊ฐ์ ํฉ๋๋ค.)
โข
๋ณ๋ ฌ์ ์ผ๋ก ์ ์ฉํ ์ ์๋ค๋ฉด ์ฌ๋ฌ ๋ฐฉ๋ฒ์ ์ ์ํด๋ ์ข์ต๋๋ค.
โข
๊ตฌ์ฒด์ ์ธ ์์น๋ฅผ ์์๋ก ๋ค์ด ์ค๋ช
ํด๋ ์ข์ต๋๋ค.
โข
์ ์ํ ๋ฐฉ๋ฒ์ Side-Effect๊ฐ ์๋ค๋ฉด ํจ๊ป ์ค๋ช
ํด ์ฃผ์ธ์.
๋ฉด์ ์๋ด
๋ฉด์ ์๋ด
๋ฉด์ ๋์์ ๋ถ๋ค์๊ฒ 7์ 26์ผ ๊ธ์์ผ ์คํ 7์ ์ด์ ์ ์๋ด ๋ฉ์ผ์ด ๋ฐ์ก๋ ์์ ์
๋๋ค.
์ผ์ 7์ 27์ผ ํ ์์ผ ์คํ 2์-10์
ํ์ ์ผ๋์ผ ๋ฉด์ , ์จ๋ผ์ธ ZOOM ๋ฏธํ
์์ ์์ ์๊ฐ 10~15๋ถ
โป ๋ฉ์ผ์ ํ์ธํ์ง ์์ ์๊ธฐ๋ ๋ถ์ด์ต์ ์ฑ
์์ง์ง ์์ผ๋ฉฐ, ๋ฏธํ์ ์ ๋ถํฉ๊ฒฉ ์ฒ๋ฆฌ๋ฉ๋๋ค.