Computer Vision Application 2024 ๋ด ์ปค๋ฆฌํ๋ผ
๋ชจ์ง ์ธ์ 6๋ช
(2๊ฐ ํ)
ํ๋ ์๊ฐ ๋งค์ฃผ ํ ์์ผ ์คํ 2์ - 4์
ํ๋ ๋ฐฉ๋ฒ ๋งค์ฃผ ํ ์์ผ ๋๋ฉด ์ ๊ธฐ ์ธ์
+ ์ฃผ์ค ํ๋ณ ์์ ๋ฏธํ
โป 2์ฃผ์ฐจ ์ธ์
์ ๊ฒฝ์ฐ, ์์ธ์ ์ผ๋ก ํ ์์ผ ์ค์ ๋๋ ์ผ์์ผ ์คํ ์งํ ์์
์ด๋ค ๊ฒ์ ํ๋์?
์ปดํจํฐ ๋น์ ์๋ ์ ๋ง ๋ค์ํ ์ธ๋ถ ํ์คํฌ๊ฐ ์์ต๋๋ค. ๊ทธ ์ค์์ ์ด๋ฒ ๊ธฐ์๋ ์๋ ๋ด์ฉ์ ์ค์ฌ์ผ๋ก ํ๋ก์ ํธ๋ฅผ ๊ธฐํํ๊ณ ์งํํฉ๋๋ค.
โข
Classfication
โข
Object Detection
โข
Image Segmentation
โข
Diffusion-Based Image Generation
ํ๋์ ํ์คํฌ๋ง ์งํํ ์๋ ์์ง๋ง, ์ฃผ์ ์ ๋ฐ๋ผ ์ฌ๋ฌ ํ์คํฌ๊ฐ ๊ฒฐํฉ๋ ์๋ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, โ์ฌ์ง ์ ๋ง์คํฌ ์ด ์ฌ๋์ ์ผ๊ตด ์์ฑโ์ด๋ผ๋ ์ฃผ์ ๋ก ํ๋ก์ ํธ๋ฅผ ์งํํ๋ค๋ฉด, ํ๋ก์ ํธ ํ์ดํ๋ผ์ธ์ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑํ ์ ์์ต๋๋ค.
์ด๋ฐ ๊ฒ์ ํด์!
โข
10์ฃผ๊ฐ ๋ชฐ์
ํ์ฌ ์ํํ๊ธฐ์ ์ ํฉํ ์ฃผ์ ๋ฅผ ์ ์ ํ๊ณ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑํด์.
โข
ํ๋ก์ ํธ๋ฅผ ์ํํ๊ธฐ ์ํด ๊ด๋ จ ๋ชจ๋ธ๋ค์ ๋ฆฌ์์นํ๊ณ ํ ๋ก ํด์.
โข
์กด์ฌํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ค๊ฑฐ๋, ์ง์ ๋ฐ์ดํฐ๋ฅผ ์์งํด์ ๋ชจ๋ธ์ ํ์ต์์ผ ๋ณด์์.
โข
์ํํ ํ๋ก์ ํธ๋ฅผ ์ ๋ฆฌํ๊ณ , ๋ฐ๋ชจ๋ฅผ ์ค๋นํ๊ณ , ๋ฐํํด์.
โข
๊ฐ๊ธฐ ๋ค๋ฅธ ๋ฐฐ๊ฒฝ์ ๊ฐ์ง ํ์์ด ๋ชจ์ฌ์ ๋จธ๋ฆฌ๋ฅผ ๋ง๋๊ณ ํจ๊ป ์ฑ์ฅํ๋ ๊ฒ์ ๋ชฉํ๋ก ํด์!
์ด๋ฐ ๊ฒ์ ํ์ง ์์์!
โข
Text Processing์ด ๋ฉ์ธ์ด ๋๋ ํ๋ก์ ํธ๋ ํ์ง ์์์. (Natural Language Processing ํ์ด ์์ด์!)
โฆ
๋จ, ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑ์์ ์ค ํ๋๋ก๋ ๋ค์ด๊ฐ ์ ์์ต๋๋ค.
โข
๋ชจ๋ธ์ ์ํคํ
์ฒ๋ฅผ ์์ ํ์ฌ ์๋ก์ด ๋ชจ๋ธ์ ๋ง๋ค์ง ์์์. (Deep Learning Architecture ํ์ด ์์ด์!)
โข
Pose Estimation, 3D Generation ๋ฑ์ ์ฃผ์ ๋ ํ์ฅ์ฑ๊ณผ ์ ํธ๋ ๋ฑ์ ๊ณ ๋ คํ์ฌ ์งํํ์ง ์์์.
โข
ํน์ ํ์คํฌ์ ์ ํ๋๋ฅผ ๋์ด๋ ๊ฒ๋ง์ ๋ชฉํ๋ก ํ์ง ์์์. (๋ํ๊ฐ ์๋์์!)
์ ๋ฐ ๊ธฐ์ค
์ด๋ฒ ๊ธฐ์๋ ํ๊ธฐ ์ค์ ์งํ๋๋ค๋ ์ ์ ๊ณ ๋ คํ์ฌ, ์
๋ฌธ์๋ณด๋ค๋ ๋ฅ๋ฌ๋ ๊ด๋ จ ๊ฒฝํ(์์
, ํ๋ก์ ํธ ๋ฑ)์ด ์๋ ๋ถ์ ๋์์ผ๋ก ์ ๋ฐํฉ๋๋ค. ๊ผญ ์ปดํจํฐ ๋น์ ์ด ์๋์ด๋ ๊ด์ฐฎ์ต๋๋ค๋ง, ๋ฅ๋ฌ๋์ ๊ดํ ๊ธฐ์ด ์ง์, ๋
ผ๋ฌธ ๋ฆฌ๋ฉ ๋ฐ ๊ธฐ๋ณธ์ ์ธ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ํ์๋ก ํฉ๋๋ค.
๊ทธ๋ฌ๋, ์ด๋ฌํ ๊ธฐ๋ณธ์ ์ธ ์๊ตฌ์ฌํญ์ด ๊ฐ์ถฐ์ ธ ์๋ค๊ณ ํ๋จ๋ ๊ฒฝ์ฐ ์ ๋๋ก ๋ฅ๋ ฅ๋๋ก ์ค ์ธ์์ ์ ๋ฐํ์ง ์์ต๋๋ค. ํ๋์ ํ์ผ๋ก์จ ์ข์ ํ๋ก์ ํธ๋ฅผ ๋ง๋ค์ด ๊ฐ๊ธฐ ์ํด์๋ ๋ค์ํ ๋ฐฐ๊ฒฝ๊ณผ ๊ฐ์ ์ ๊ฐ์ง ์ฌ๋์ด ํจ๊ปํ๋ ๊ฒ์ด ๋ ์ค์ํฉ๋๋ค.
๋ํ, ์ง์์๊ฐ ์ฃผ๋น ์ต์ 6์๊ฐ ์ด์์ ์๊ฐ ํฌ์๋ฅผ ํ ์ ์์์ ๊ฐ์ ํ๊ฒ ์ต๋๋ค. ๋ง์ฝ ํ์
๋๋ ๊ฐ์ธ์ ์ธ ์ผ๋ก ์ธํด ๋ฐ์๋ค๋ฉด, ํ๋ก์ ํธ๋ฅผ ์ํํ๋ ํ์๋ค์๊ฒ ํผํด๋ฅผ ์ฃผ๋ ๊ฒ์ด๋ฏ๋ก ์ง์์ ์ผ๊ฐ ์ฃผ์ธ์!
์ ๋ ๋ฌธ๊ณผ์ธ๋ฐ์โฆ
โข
์คํ๋ ค ์ข์ต๋๋ค. ๋ณธ์ธ๋ง์ด ๊ฐ์ง ๋
ํนํจ์ ๋ถ๋ช
ํ๋ก์ ํธ ํ๋ฆ์ ๋์์ด ๋ ๊ฒ์
๋๋ค.
โข
ํ๋ก์ ํธ ์งํ์ ํ์ํ ๋ฅ๋ฌ๋ ์ง์์ ๋ฉํ ์๊ฒ ๋ฌผ์ด๋ณด์ธ์!
โข
โ๋๋ง์ ๋ฐฉ์์ผ๋กโ ํ๋ก์ ํธ์ ๊ธฐ์ฌํ ์ ์๋ ๋ฐ(๋์์ธ, ์คํ ๋ฆฌ๋ผ์ธ ๋ฑ..)๋ฅผ ์๊ฐํด์, ๊ณผ์ 1์ ์ ์ดํํด ์ฃผ์ธ์.
์ ๋ ์ฝ๋ฉ์ ์ํ๋๋ฐ ์๋ฌด ์ด์ ๋ ์๋ ๊ฑด๊ฐ์?
โข
๋น์ฐํ, ํ๋ถํ ๋ฅ๋ฌ๋ ์ง์์ ๊ฐ์ท๊ฑฐ๋ ์ฝ๋ฉ์ ์ํ๋ค๋ฉด ํ์ ๊ผญ ํ์ํ ์ธ์์
๋๋ค.
โข
๋จ๋ค๋ณด๋ค ์๋ฑํ ์ํ๋ค๋ฉด, ๋์ ํ๋ฅ ๋ก ์ ๋ฐ๋ ๊ฒ์
๋๋ค.
ํ๋ ๊ณํ
์ ๋ฐ๊ธฐ (1~4์ฃผ์ฐจ)
๋ฉํ ์ธ์
(30๋ถ), ํ๋ก์ ํธ ์ธ์
(90๋ถ)์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
ํ๋ก์ ํธ ์ธ์
์์๋ ํ๋ณ ์ฃผ์ ๊ณต์ ๋ฐ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐ์ผ๋ก, ์ฃผ์ ๋ฅผ ์ ์ ํ๊ณ ์ด์ ๋ง๋ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
๋ฉํ ์ธ์
์์๋ ํ๋ก์ ํธ์ ์ํํ๋ ๋ฐ ํ์ํ ๋ชจ๋ธ๋ค์ ๋ฆฌ์์นํ๊ณ , ๋ถ๋ฌ์ค๊ณ , ํ์ต์ํค๊ณ , ๊ฒฐ๊ณผ๋ฌผ์ ํ์ธํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ค๋ฃน๋๋ค.
ํ๋ฐ๊ธฐ (5~9์ฃผ์ฐจ)
์ ๋ฐ๊ธฐ์ ์ ์ ํ ์ฃผ์ ๋ฐ ํ์ดํ๋ผ์ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ก์ ํธ๋ฅผ ์งํํฉ๋๋ค.
ํ๋ก์ ํธ ์ธ์
๋ง ์งํํ๋ฉฐ, ํ์ ๊ฐ ์ ๊ทน์ ์ธ ํ ๋ก ๋ฐ ํผ๋๋ฐฑ์ ํตํ ์์ฑ๋ ๋์ ํ๋ก์ ํธ ์ํ์ ๋ชฉํ๋ก ํฉ๋๋ค.
์ฃผ์ฐจ | ํ๋ ๋ด์ฉ [ ํ๋ก์ ํธ ์ธ์
| ๋ฉํ ์ธ์
] |
1์ฃผ์ฐจ | OT | ์ง๋ ๊ธฐ์ ํ๋ก์ ํธ ์๊ฐ |
2์ฃผ์ฐจ | ์ฃผ์ ์ ์ (1) | ์ฝ๋ ์ธ์
(1): ๋ชจ๋ธ ๋ถ๋ฌ์ค๊ธฐ (Github, HuggingFace) |
3์ฃผ์ฐจ | ์ฃผ์ ์ ์ (2) | ์ฝ๋ ์ธ์
(2): Data preprocessing & Visualization |
4์ฃผ์ฐจ | ํ์ดํ๋ผ์ธ ๊ตฌ์ฑ | ์ฝ๋ ์ธ์
(3): Traning & Hyperparameter Tuning |
5์ฃผ์ฐจ | ๊ด๋ จ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฐ ํ ์ธ๋ฏธ๋ ์ค๋น |
6์ฃผ์ฐจ | ๊ตฌํ ๋ฐ ํผ๋๋ฐฑ (1) |
7์ฃผ์ฐจ | ๊ตฌํ ๋ฐ ํผ๋๋ฐฑ (2) |
8์ฃผ์ฐจ | ๊ตฌํ ๋ฐ ํผ๋๋ฐฑ (3) |
9์ฃผ์ฐจ | ์ต์ข
์ ๋ฆฌ ๋ฐ ๋ฆฌํ์ค ์ค๋น |
10์ฃผ์ฐจ | ์คํ ์ธ๋ฏธ๋ |
์ฌ์ ๊ณผ์ ์๋ด
deep daiv. ์๋ฃ ๊ฒฝํ์ด ์๋ ํ์์ ๊ฒฝ์ฐ, ํ๋ก์ ํธ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํ ๋ฅ๋ ฅ์ด ๊ฐ์ถฐ์ ธ ์๋ค๊ณ ํ๋จํ์ฌ ํฐ ๊ฐ์ฐ์ ์ ๋ถ์ฌํ ์์ ์
๋๋ค. ๊ทธ๋ฌ๋. ๊ธฐ์กด ํ์์ด๋ผ๊ณ ํฉ๊ฒฉ์ ์์ ํ ๋ณด์ฅํ์ง๋ ๋ชปํ๋ฏ๋ก, ๊ณผ์ ๋ฅผ ์ดํํด ์ฃผ์ค ๊ฒ์ ๊ถ์ฅ๋๋ฆฝ๋๋ค!
๋ชจ๋ ๊ณผ์ ๋ ๋
ธ์
ํ์ด์ง์ ์์ฑ ํ ๊ณต์ โ ๊ฒ์ โ ์น์ ๊ฒ์, ์ดํ ๊ฒ์ํ ํ์ด์ง ๋งํฌ๋ฅผ ์ ์ถํด์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
์ ๊ท ํ์์ ๊ฒฝ์ฐ, ์ง์์ ๊ณผ์ ์ ์ถ๋์ ๊ณผ์ ํ์ด์ง ๋งํฌ๋ฅผ ์
๋ ฅํ์ฌ ์ ์ถํด ์ฃผ์ธ์!
๊ณผ์ 1 (ํ์)
๊ณผ์ 1์ ์ ์ฑํ๊ฐ์
๋๋ค. ์ง์์์ ๋ฐฐ๊ฒฝ ๋ฐ ๊ธฐ๋ณธ์ ์ธ ๋ฅ๋ฌ๋ ์ง์ ๊ด๋ จ ์ง๋ฌธ์ ํตํด, ์ง์์๊ฐ 10์ฃผ๊ฐ ๋ชฐ์
ํ์ฌ ์ฑ๊ณต์ ์ผ๋ก ํ ํ๋ก์ ํธ๋ฅผ ์ํํ ์ ์์ ์ง ํ๋จํฉ๋๋ค. ์ ๊ท ํ์์ ๊ฒฝ์ฐ, ์ง์์์ ์ง๋ฌธ๊ณผ ๊ฒน์น๋ ๋ฌธํญ์ด ์ผ๋ถ ์์ผ๋ ๋ณธ ๊ณผ์ ์์ ์์ฑํ ๋ด์ฉ์ ์ค์ ์ ์ผ๋ก ๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค. ์ง์์์ ์์ฑํ ๋ด์ฉ์ ๊ธฐ๋ฐ์ผ๋ก ์ฌ์ง ๋ฑ์ ์๋ฃ๋ฅผ ํตํด ์ค๋ช
ํด ์ฃผ์ธ์. ๋ต๋ณ ์์ ๋ฐ ๊ธ์ ์ ์ ํ์ ์์ต๋๋ค.
๊ธฐ์กด ํ์์ ๊ฒฝ์ฐ, ์ด์ ๊ธฐ์์ ์งํํ๋ ํ๋ก์ ํธ๋ฅผ ํ ๋๋ก Question 1๋ฒ์ ์์ฑํด ์ฃผ์๊ณ , 2, 3๋ฒ์ ์์ ๋กญ๊ฒ ์์ฑํด ์ฃผ์ธ์.
์ ๊ท ํ์์ ๊ฒฝ์ฐ, ์ง์์์ ์์ฑํ ๋ด์ฉ์ ํ์ฅํ์ฌ Question 1, 2๋ฒ์ ์์ฑํด ์ฃผ์๊ณ , 3๋ฒ์ ์์ ๋กญ๊ฒ ์์ฑํด ์ฃผ์ธ์.
Question 1. ๋ฅ๋ฌ๋ ํ๋ก์ ํธ ๊ฒฝํ
๊ผญ ์ปดํจํฐ ๋น์ ์ด ์๋์ด๋ ๊ด์ฐฎ์ต๋๋ค. ๋ฅ๋ฌ๋ ๊ด๋ จ ์์
(๋
ํ ํฌํจ), ๊ฒฝ์ง๋ํ, ๊ณต๋ชจ์ ๋๋ ์ด์ ๊ธฐ์ ํ๋ก์ ํธ ๋ฑ์์ ์ํํ ๋ฅ๋ฌ๋ ํ๋ก์ ํธ ๊ฐ์์ ๋ณธ์ธ์ ์ญํ ์ ์์ ํด ์ฃผ์ธ์. ๊นํ๋ธ ๋งํฌ ๋๋ ๋
ธ์
ํ์ด์ง ๋งํฌ๋ฅผ ๊ณต์ ํด ์ฃผ์
๋, ์ฌ๋ฌ ๊ฐ๋ฅผ ๋์ดํด ์ฃผ์
๋ ์ข์ต๋๋ค.
Question 2. ๋ด๊ฐ ๋์๋ฉด ์ด ์ ๋ ~
๋ฅ๋ฌ๋ ํ๋ก์ ํธ๋ฅผ ์ ์ธํ๊ณ , ๋๋ ๋ชฐ์
ํ๋ฉด ์ด์ ๋๊น์ง ํด๋ผ ์ ์๋ค! ๋ผ๋ ๊ฒ์ ์์ฑ ํด ์ฃผ์ธ์. ์ฝ๋ฉ ๊ด๋ จ ๊ฒฝํ๋ ์ข๊ณ , ํ์ ์๋๋ ์ข์ต๋๋ค. ๋ ๋์๊ฐ์, ์ด๋, ์์
, ๊ธ์ง๊ธฐ ๋ํ ์์ ๊ฒฝํ๋ ์ข์์. ๋ณธ์ธ์ด ๊ฐ์ฅ ์ข์ํ๊ณ , ์ํ๋ ๊ฒ์ ํ์ ๋์ ์ ์ฌ๋ ฅ์ ๋ง์๊ป ์ดํํด ์ฃผ์ธ์.
Question 3. ์ฃผ์ ๋๋ ๊ฐ์ค (Optional)
์ฌ๋ฌ๋ถ์ ํตํต ํ๋ ์์ด๋์ด๋ฅผ ๊ธฐ๋ํฉ๋๋ค. ์ํํ๊ณ ์ถ์ ํ๋ก์ ํธ๊ฐ ์๋ค๋ฉด, ๊ฐ๋จํ๊ฒ ์ค๋ช
ํด ์ฃผ์ธ์.
์๊ฐ์ด ์ ๋์ง ์๋๋ค๋ฉด, ํ๋ก์ ํธ์ ์ํ๋ ๊ฐ์ค ๋ฐ ๋ฅ๋ค์ด๋ธ ํ๋์ ํตํด ์ป๊ณ ์ ํ๋ ๋ฐ๋ฅผ ๊ฐ๋จํ๊ฒ ์ ์ด์ฃผ์ธ์. (200์ ์ด๋ด)
๊ณผ์ 2 (Optional)
๊ณผ์ 2๋ ์ ๋ํ๊ฐ์ด๋ฉฐ, ํน์ ์ฃผ์ ์ ์ ํฉํ ๋ชจ๋ธ์ ๋ถ๋ฌ์ ํ์ตํ ์ ์๋์ง ์์๋ณด๋ ๊ณผ์ ์
๋๋ค. ๋ชจ์ง ๊ธฐ๊ฐ์ด ๋ํ๊ต ์ค๊ฐ๊ณ ์ฌ ๊ธฐ๊ฐ์์ ๊ฐ์ํ์ฌ, ์ฝ๋๋ฅผ ์ง์ ์์ฑํ์ง๋ ์๋ ๊ฒ์ผ๋ก ํ๊ฒ ์ต๋๋ค. ๋ํ, ๋ณธ์ธ์ด ์์ง ๋ณธ ๊ณผ์ ๋ฅผ ์๋ฒฝํ ์ดํดํ ์ ์๋ค๊ณ ํ๋จํ๋ค๋ฉด ์ ์ถํ์ง ์์ผ์
๋ ๊ด์ฐฎ์ต๋๋ค. ์์ ๋ง์๋๋ ธ๋ฏ ์ ๋๋ก ์ปดํจํฐ ๋น์ ์ง์์ด ์๋ฑํ ๊ฐ์ถฐ์ง ์ฌ๋๋ค๋ก๋ง ํ์ ๊ตฌ์ฑํ์ง ์์ต๋๋ค.
๊ทธ๋ฌ๋, ๊ณผ์ 2๋ฅผ ์ํํ๋๋ฐ ์์ด ์๊ตฌ๋๋ ๋ฅ๋ ฅ์ ๊ฐ ํ์์ ๊ผญ ํ์ํ๋ค๊ณ ํ๋จํ์ฌ, ๋ณธ ๊ณผ์ ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํ ์์ N๋ช
์ ๊ฒฝ์ฐ ๊ณผ์ 1๊ณผ ์๊ด์์ด ์ฐ์ ์ ๋ฐํ๋๋ก ํ๊ฒ ์ต๋๋ค. ๋ต๋ณ ์์ ๋ฐ ๊ธ์ ์ ์ ํ์ ์์ต๋๋ค. ๋ค๋ง, ์ฅํฉํ๊ฒ ์ค๋ช
ํ๊ธฐ ๋ณด๋ค๋ ํต์ฌ ์์ด๋์ด๋ง ์์ฑํด์ฃผ์ธ์
Background
์ฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ ์ด๋ฏธ์ง์์ ๊ฑด๋ฌผ์ ์ถ์ถํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ์ธ๊ทธ๋ฉํ
์ด์
ํ์คํฌ๋ฅผ ์ํํ๋ ค ํฉ๋๋ค.
๋ํ, ์ด๋ฏธ์ง ๋ฐ Ground Truth ์์ด ํ์ต์ฉ ๋ฐ์ดํฐ์
์ผ๋ก ์ฃผ์ด์ ธ ์์ต๋๋ค.
์ด๋ฏธ์ง
Segmentation Mask(Ground Truth)
Question 1. ๋ชจ๋ธ ์ ์
(1-1) (5pts) ์ฐ๋ฆฌ๋ Github ๋๋ Hugging Face ๋ฑ์์ ๋ชจ๋ธ์ ๋ถ๋ฌ์ ์ด๋ฏธ์ง์์ ๊ฑด๋ฌผ์ ์ถ์ถํ๋ ค ํฉ๋๋ค. ์ด ๋, ์ฌ์ฉํ ๋ชจ๋ธ์ ๋ํด ์ค๋ช
ํ๊ณ , ๋ชจ๋ธ ์ถ์ฒ(๋งํฌ)๋ฅผ ์ฒจ๋ถํด ์ฃผ์ธ์. (โ๋ชจ๋ธโ์ด๋ผ ํจ์, ์ํคํ
์ณ ๋ฐ ์ฌ์ ํ์ต ๋ ๊ฐ์ค์น๋ฅผ ๋ชจ๋ ํฌํจํ๋ ๊ฐ๋
์
๋๋ค.)
(1-2) (10pts) ๋ชจ๋ธ ์ํคํ
์ณ์ Backbone์ผ๋ก CNN ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ ์ค ์ด๋ค ๊ฒ์ ์ ํํ ๊ฒ์ธ์ง ์ ์ํ๊ณ , ๊ทธ ์ด์ ๋ฅผ ์์ธํ ์ค๋ช
ํด ์ฃผ์ธ์. (๋จ, ๋ชจ๋ธ์ Scale์ ๊ฐ๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.)
Question 2. ๋ชจ๋ธ ํ์ต
(2-1) (5pts) ์ฐ๋ฆฌ๋ ํน์ metric์ ํตํด ์ถ๋ก ๊ฒฐ๊ณผ๊ฐ Ground Truth์ ์ผ๋ง๋ ์ผ์นํ๋์ง ํ๋จํ๋ ค๊ณ ํฉ๋๋ค. ์ด ๋, ์ด๋ค metric์ ์ฌ์ฉํ ๊ฒ์ธ์ง, ํ์ต ๊ณผ์ ์์๋ ์ด๋ค Loss Function์ ์ฌ์ฉํ ๊ฒ์ธ์ง ์ ์ํ๊ณ ๊ทธ ์ด์ ๋ฅผ ์ค๋ช
ํด ์ฃผ์ธ์.
(2-2) (10pts) ์ฐ๋ฆฌ๋ ์ฝ๋ฉ์ ์ฌ์ฉํ์ฌ ์์ ์ ์ํ ๋ฐ์ดํฐ์
์ ๋ชจ๋ธ์ ํ์ต์ํค๋ ค ํฉ๋๋ค. ํ์ง๋ง ์ ์ด๋ฏธ์ง๋ ๊ณ ํด์๋์ ์ด๋ฏธ์ง(1024 x 1024)์ด๊ธฐ ๋๋ฌธ์, ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ์ผ๋ก ํ์ต์ ์คํจํฉ๋๋ค. ์ด ๋๊ด์ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฐ์ฅ ์ ์ ํ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ ๊ทธ ์ด์ ๋ฅผ ์ค๋ช
ํด ์ฃผ์ธ์. (๋จ, ๋ชจ๋ธ ๋ฐ GPU๋ ๊ต์ฒดํ ์ ์์ผ๋ฉฐ, ๋๋จธ์ง๋ ์์ ๋กญ๊ฒ ๊ฐ์ ํฉ๋๋ค.)
โข
๋ณ๋ ฌ์ ์ผ๋ก ์ ์ฉํ ์ ์๋ค๋ฉด ์ฌ๋ฌ ๋ฐฉ๋ฒ์ ์ ์ํด๋ ์ข์ต๋๋ค.
โข
๊ตฌ์ฒด์ ์ธ ์์น๋ฅผ ์์๋ก ๋ค์ด ์ค๋ช
ํด๋ ์ข์ต๋๋ค.
โข
์ ์ํ ๋ฐฉ๋ฒ์ Side-Effect๊ฐ ์๋ค๋ฉด ํจ๊ป ์ค๋ช
ํด ์ฃผ์ธ์.
โป ๋ฉด์ ์ ์ค์ํ์ง ์์ผ๋ฉฐ, ๋์ ์ ๋ฐ์ ์ ๋ชจ๋ ์ ๋ฐ๋ฉ๋๋ค.