Mutlimodal 2023 ๊ฐ์ ์ปค๋ฆฌํ๋ผ
๋ชจ์ง ์ธ์ 1๋ช
ํ๋ ์๊ฐ ๋งค์ฃผ ๋ชฉ์์ผ ์คํ 9์
ํ๋ ๋ฐฉ๋ฒ ์ฃผ 1ํ ๋น๋๋ฉด ์ ๊ธฐ ์ธ์
+ ์ฃผ 1ํ ํ์ ํ๋ณ ๋ฏธํ
(๋๋ฉด ๊ถ์ฅ)
์์ฐ์ด์ฒ๋ฆฌ์ ์ปดํจํฐ๋น์ ์ ๋ฐ์ ์ ํ๋๋ก, ์ด์ ๊น์ง ๊ฐ์ด ๋จ์ผ ๋ชจ๋ฌ๋ฆฌํฐ๋ง์ ์ฌ์ฉํ๋ Unimodal์์ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ฌ์ฉํ๋ ค๋ Multimodal ์ฐ๊ตฌ๊ฐ ํ๋ฐํ๊ฒ ์ด๋ฃจ์ด์ง๊ณ ์์ต๋๋ค. 2023 ๊ฐ์๊ธฐ์ ๋ฉํฐ๋ชจ๋ฌ ๋ถ์ผ์์๋ ์ฃผ๋ก Text์ Image ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ์ ๋ค๋ฃจ๊ณ ์ ํฉ๋๋ค.
๋ํ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค๋ณด๋, GPU ๋ฆฌ์์ค ๋ถ์กฑ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ ์ผ๋ํ์ฌ ํ๋ก์ ํธ๋ ํ์ธ ํ๋ ์์ฃผ๋ก ์งํ๋ ์์ ์
๋๋ค. ํน์ ํจ์จ์ ์ผ๋ก ์ผ์ ํ๋ผ๋ฏธํฐ๋ง ํ์ต์ด ๊ฐ๋ฅํ ๋ถ๋ถ์ ํ์ฉํ๊ฒ ๋ ์๋ ์์ต๋๋ค.
ํ์ ๊ณผ์
UNet, Transformer(Attention), AutoEncoder ์๋ฆฌ ์ค๋ช
๊ณผ์ ๋ชฉ์
Text-to-Image Generation์ ๋ํ์ ์ธ ๋ชจ๋ธ์ธ ์คํ
์ด๋ธ ๋ํจ์ (Stable Diffusion)์ ์ดํดํ๊ธฐ ์ํ ์ ์ ์ง์์ด๋ฉฐ, ๊ธฐ์ด ์ญ๋์ ๊ฒ์ฆํ๊ธฐ ์ํ ๊ณผ์ ์
๋๋ค. ์์ ์ด ์ดํดํ๋๋ก, 1) ๋ชจ๋ธ์ ๋ฑ์ฅ ๋ฐฐ๊ฒฝ 2) ๋ชจ๋ธ์ ํต์ฌ ๊ตฌ์กฐ์ ๊ด๋ จ๋ ๋ด์ฉ์ ๋ด์ ๋
ธ์
์ ์์ฑํฉ๋๋ค. ๋ถ๋ ์ ํ์ ์์ผ๋ฉฐ, ๋ด์ฉ์ ํต์ฌ๋ง ๋ด๊ฒจ ์์ผ๋ฉด ๋ฉ๋๋ค.
โข
์ฃผ์์ฌํญ
โฆ
๋
ผ๋ฌธ์ ๊ตฌ์กฐ(Background - Related Works - Method - Experiments โฆ)๋ฅผ ๋ฐ๋ผ๊ฐ๋ฉฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ๋ ๊ฒ์ด ์๋๋ผ, ์ดํดํ ๋ด์ฉ์ ๋จ์๊ฒ ์ ๋ฌํ๊ธฐ ์ํด ์ ๋ฆฌํ๋ค ์๊ฐํ๊ณ ์์ฑํด์ผ ํฉ๋๋ค.
โฆ
์ฑ์๋ฅผ ๋ด
๋๋ค
๊ณผ์ ์์
์์ ๋
ธ์
์์์ ๋ณต์ ํ ํ, ์์ฑํ์ ๋
ธ์
์ ๋งํฌ๋ก ์ฒจ๋ถํด์ฃผ์๋ฉด ๋ฉ๋๋ค.
์ ๋ชฉ์ ํต์ผ์ด๋ฉฐ, [Name] ๋ถ๋ถ์ ์์ ์ ์ด๋ฆ์ผ๋ก ๋ณ๊ฒฝํด์ฃผ์๋ฉด ๋ฉ๋๋ค.
๊ณต์ ์ค์
์ฐ์ธก ์๋จ ๊ณต์ - ๊ณต์ - Notion์ ๋งํฌ๊ฐ ์๋ ๋ชจ๋๋ก ๊ณต์ ๋์ ๋ณ๊ฒฝ
์ฐ์ธก ์๋จ ๊ณต์ - ๊ฒ์ - ์น์ ๊ฒ์ ํด๋ฆญ ํ ํ
ํ๋ฆฟ ๋ณต์ ํ์ฉ
์ด๋ฐ ํ์๊ณผ ํจ๊ปํ๊ณ ์ถ์ด์!
๋ฉํฐ๋ชจ๋ฌ ์ ๋ง ์ฌ๋ฐ๊ณ ๋ฐฉ๋ํ ๋ถ์ผ์ธ ๋งํผ, ์ฌ๋ฌ๋ถ๊ณผ ๋๋๊ณ ์ถ์๊ฒ ๋ง์ต๋๋ค ๊ทธ๋ฌ๊ธฐ ์ํด์ ์ ์ ํจ๊ป ํ๋ ํ์ ๋ถ๋ค์ด 10์ฃผ๊ฐ ๋ค์ด๋ธ๋ฅผ 1์์๋ก ๋๊ณ ๋ชฐ์
ํ ์ ์๋ ๋ถ๋ค์ด๋ฉด ์ข๊ฒ ์ด์! ํ๋์ ์ด์ฌํ ์ํด์ฃผ์ ๋งํผ, ์ ๋ ์ฑ์ฅ์ ํจ๊ปํ๊ธฐ ์ํด ์ด์ ์ ๋ถํ์ฐ๋๋ก ํ๊ฒ ์ต๋๋ค
์ฃผ์ฐจ ๋ณ ํ๋ ๊ณํ
์ฃผ์ฐจ | ํ๋ ๋ด์ฉ |
1์ฃผ์ฐจ | OT |
2์ฃผ์ฐจ | CLIP | Project Ideation |
3์ฃผ์ฐจ | Stable Diffusion | ์ฃผ์ ํ์ ๋ฐ ๋ฐ์ดํฐ ์์ง |
4์ฃผ์ฐจ | ImageBind | ํ๋ก์ ํธ (1) |
5์ฃผ์ฐจ | ํ๋ก์ ํธ (2) |
6์ฃผ์ฐจ | ํ ์ธ๋ฏธ๋ |
7์ฃผ์ฐจ | ๊ธฐ๋ง๊ณ ์ฌ ์ธ์
ํด์ |
8์ฃผ์ฐจ | ๊ธฐ๋ง๊ณ ์ฌ ์ธ์
ํด์ |
9์ฃผ์ฐจ | ํ๋ก์ ํธ ๋ฐ๋ชจ ์ค๋น |
10์ฃผ์ฐจ | ํ๋ก์ ํธ ๋ฆฌํ์ค |