Text-to-Image 생성 모델 열풍이 한창이던 2022년 9월 말, Meta(구 페이스북)에서 동영상 생성 AI인 ‘Make-A-Video’를 발표했습니다. Text-to-Image 생성 모델과 비슷하게 짧은 문장을 입력하면 그 내용을 담은 짧은 동영상이 생성되는 방식이었죠. 메타가 Make-A-Video를 소개하며 공개한 일부 동영상은 길이가 짧았고, 다소 흐릿하고 부자연스러운 부분도 있었지만 창의적이고 인상적인 결과물로 비디오 생성 AI의 가능성을 분명하게 보여주었습니다.

Meta가 Make-A-Video를 공개한 지 채 일주일이 지나지 않은 2022년 10월 초, 구글에서도 비디오 생성 AI를 공개했습니다. 구글은 2개의 Text-to-Video 생성 모델을 공개했는데요, 바로 Imagen Video와 Phenaki입니다. 이 두 모델은 텍스트를 기반으로 비디오를 생성하는 모델이라는 점은 같지만, 생성의 목적에 분명한 차이가 있습니다. 하나는 짧은 길이의 고화질 비디오를, 다른 하나는 길고 구체적인 저화질 비디오를 생성한다는 것입니다.

먼저 살펴볼 Phenaki는 그중 더 길고 구체적인 저화질의 비디오를 생성하는 모델입니다. 생성하고자 하는 영상의 이야기를 담은 몇 개의 문장을 프롬프트에 입력하면, 최대 2분 가량의 영상을 생성 해줍니다. 아래 예시처럼 시나리오 형태의 글을 입력하면 2분짜리 단편 영화를 만들 수도 있겠네요 Phenaki가 생성한 동영상 샘플은 Penaki의 공식 웹페이지에서 확인할 수 있습니다.

마지막으로, 오늘의 주제인 Imagen Video는 약 5.3초의 짤막한 고화질 비디오를 생성하는 모델입니다. Phenaki가 비디오의 ‘일관성과 길이’에 중점을 두었다면 Imagen Video는 비디오의 ‘품질’에 중점을 두었다고 할 수 있죠. 고화질의 비디오를 생성하기 위해 요즘 생성 모델에서 많이 쓰이고 있는 Diffusion 모델을 사용했다고 하는데요. 그중에서도 Diffusion 모델을 비디오 생성 버전으로 확장한 Video Diffusion 모델을 새롭게 적용했다고 합니다. 그럼 Imagen Video가 어떻게 비디오를 생성해 내는지, 그 내부를 들여다볼까요?

2. Imagen Video, 어떻게 비디오를 생성할까?

Imagen Video는 Diffusion 모델을 비디오 생성에 맞게 확장한 Video Diffusion 모델을 사용합니다. 비디오 생성은 다음과 같이 크게 세 단계로 이루어집니다.

Imagen Video의 비디오 생성 과정 1. T5 텍스트 인코더를 통한 텍스트 임베딩 2. Base Video Diffusion 모델을 통한 저해상도 비디오 생성 3. Temporal/Spatial Super-Resolution 모델을 통해 업샘플링된 고해상도 비디오 생성

먼저, 사용자가 프롬프트에 입력한 텍스트를 Frozen T5 텍스트 인코더를 통해 Base Video Diffusion 모델에 넘겨줍니다. 그런 다음 Base 모델이 생성한 3fps(초당 3프레임)으로 구성된 16x40x24 해상도의 저해상도 비디오를 시작으로 TSR(Temporal Super-Resolution)과 SSR(Spatial Super-Resolution) 모델을 반복하며 비디오의 해상도를 점차 높여나가는데, 이 과정을 업샘플링(Upsampling)이라고 합니다.

모든 과정을 거치면 24fps로 구성된 128프레임의 1280x768 고해상도 비디오가 생성되는데요. 이 과정을 통틀어 Cascaded Diffusion Models(계단식 확산 모델)이라고 합니다.

2.1 Cascaded Diffusion Models

Cascaded Diffusion Models는 총 7개의 하위 모델로 구성됩니다. 1개의 Base Video Diffusion 모델, 3개의 SSR(Spatial Super-Resolution) 모델, 그리고 3개의 TSR(Temporal Super-Resolution) 모델이 포함되며, 이 Diffusion 모델들의 파라미터가 총 1,160만 개라고 합니다.

가장 먼저, Diffusion 모델에 앞서 T5 텍스트 인코더가 Input 텍스트를 임베딩합니다. 이 텍스트 임베딩이 비디오와 텍스트 프롬프트를 연결해 주어 사용자의 입력을 반영한 비디오를 생성할 수 있습니다. 그런 다음 텍스트 임베딩을 전달받은 Base 모델이 Diffusion을 통해 저해상도의 비디오를 생성하면, SSR과 TSR 모델이 업샘플링을 시작합니다.

Note 하나의 프레임으로 이루어진 이미지와 달리, 비디오는 여러 프레임들이 연속된 시간 안에서 순서를 가지고 배치된 것이기 때문에 Temporal, 즉 ‘시간’의 개념이 추가됩니다.

여기서 TSR이 시간 해상도를 높이는 모델로, Input 프레임 사이사이에 프레임을 채워 넣어 비디오의 흐름을 조금 더 부드럽게 만드는 역할을 합니다. 반면 SSR은 공간 해상도를 높이는 모델로, 각 Input 프레임 내의 픽셀 수를 늘려 해상도를 높입니다. 일반적인 이미지 처리와 같죠.

2.2 Video U-Net

이제 앞서 살펴본 각각의 Diffusion 모델 내부에서 하나의 비디오를 이루는 프레임들이 어떻게 처리되는지 살펴볼까요?

Video U-Net은 Space-Time Separable Block으로, 공간적(Spatial) 연산과 시간적(Temporal) 연산이 분리되어 수행됩니다. 연산은 Convolution과 Self-Attention, 두 종류로 구성되는데요. Base 모델에서는 Spatial Convolution, Spatial Self-Attention 그리고 Temporal Self-Attention을 사용하고, SSR 및 TSR에서는 Spatial Convolution, Spatial Self-Attention 그리고 Temporal Convolution을 사용합니다. SSR 및 TSR에서는 메모리 효율성을 높이고자 Temporal Attention 대신 Convolution 연산을 한다는 것이 특징입니다.

위의 그림에서 볼 수 있듯이 공간적 연산은 각 프레임 별로 독립적으로 수행됩니다. 개별 프레임의 해상도를 높이는 작업이기 때문이죠. 단, 모든 프레임의 해상도가 같아야 하므로 이때 연산에 사용되는 파라미터는 모든 프레임이 공유합니다. 그리고 시간적 연산은 모든 프레임이 혼합되어 수행됩니다. 기존 프레임 사이에 새 프레임을 끼워 넣어 시간적 해상도를 높이는 작업이기 때문입니다.

Video U-Net은 기존 이미지 생성에 사용되었던 2D U-Net을 3D로 일반화해 비디오 생성에 적용한 것인데요. 이 과정을 통해 생성된 비디오의 Spatial Fidelity와 함께 Temporal Dynamics를 확보할 수 있다는 장점이 있습니다.

3. 앞으로의 Text-to-Video 모델

상상력이 한껏 담긴 비디오를 생성하는 Text-to-Video 모델들, 차세대 생성 분야로 주목받고 있긴 하지만 아직은 나아가야 할 길이 많이 남았습니다.

아직 이미지 생성 모델에 대한 윤리적 이슈도 해결되지 않은 상태이고, 생성 AI의 특성상 부적절하거나 악의적인 사용으로 이어질 소지가 다분하기 때문에 특히나 신중을 기할 수밖에 없습니다. 또한 필터링 한 데이터를 이용하여 학습했더라도, 사용자 의도와 상관없이 폭력적이고 차별적인 유해 콘텐츠를 생성할 수도 있죠.

때문에 Imagen Video를 비롯하여 앞서 언급했던 Phenaki와 Make-A-Video 모두 아직 정식으로 공개되지 않았으며, 논문과 샘플만 열람할 수 있는 연구 단계에 있습니다.

“While our internal testing suggests much of explicit and violent content can be filtered out, there still exists social biases and stereotypes which are challenging to detect and filter. We have decided not to release the Imagen Video model or its source code until these concerns are mitigated.” - Imagen Video 논문 인용

이에 구글은 “우려가 완화될 때까지 Imagen Video의 모델 및 소스코드를 공개하지 않기로 했다”라며 정식 공개 시점을 미룬 상황입니다. 비디오 생성 모델이 충분히 정제되어 상용화되면 또 어떤 서비스가 탄생해 어떻게 세상을 바꿀지 기대가 되는 한 편, 점점 발전하는 AI 기술이 악용되지 않도록 충분한 주의와 조치가 필요할 것 같습니다.

OUTRO

Generative AI 시리즈, 그 네 번째 이야기인 Text-to-Video 모델 Imagen Video를 끝으로 여기서 마무리됩니다 시리즈를 통해 GAN부터 GPT-3, Stable Diffusion 그리고 Imagen Video까지, AI 생성 모델의 흐름 가운데 몇 가지 주요한 모델을 살펴보았는데요. 텍스트와 이미지는 물론이고 이제는 영상까지! AI가 무엇이든지 뚝딱 만들어내는 세상이 오고 있음이 와닿습니다.

생성 AI의 눈부신 발전, 한 편으로는 “이러다 AI가 인간을 대체하는 것이 아니냐” 우려 섞인 목소리도 새어 나오는데요. 실은, AI는 아직 완전하지 않습니다. 그럴듯하게 포장된 AI의 생성물 그 이면에는 사실 갖은 오류와 편향이 숨어 있습니다. 단지 AI는 지금도 무서운 속도로 세상을 배워나가며 스스로 개선되고 있을 뿐이죠.

무서운 속도로 발전하고 있는 AI, 이제는 이들이 가져올 변화에 발맞추어 함께 나아가기 위한 우리 인식의 전환이 필요한 시점입니다.

에디터 @유현

참고문헌 및 출처

[1] Imagen Video 논문: https://arxiv.org/abs/2210.02303

[2] Imagen Video 공식 블로그: https://imagen.research.google/video/

[3] 동영상 생성 AI 관련 기사: https://newstheai.com/site/data/html_dir/2022/10/19/2022101980137.html

문의사항 manager@deepdaiv.com