반응형
UniVideo는 언어, 이미지, 비디오 통해 자연스러운 커뮤니케이션을 가능하게 하는 AI 비서 구축을 목표
비디오에 관한 이해, 생성 및 편집을 단일 프레임워크 내에서

1. 핵심 아키텍처: 듀얼 스트림 설계 (Dual-Stream Design)
UniVideo는 시각적 일관성을 유지하면서 instruction 지시르를 정확하게 해석하기 위해 두 개의 듀얼 스트림 구조
Understanding Stream: MLLM (Multimodal Large Language Model)
◦ 역할: 텍스트, 이미지, 비디오 입력을 받아 시각-텍스트적 이해 및 추론 (구체적으로 qwen2.5VL-7B를 backbone).
◦ 출력: MLLM의 마지막 레이어 은닉 상태(hidden states)를 추출하여 의미적 feature을 인코딩하고, 이를 MMDiT의 입력 공간에 맞게 학습 가능한 커넥터(trainable connector)를 통해 정렬
Generation Stream: MMDiT (Multimodal DiT)
◦ 역할: 이미지, 비디오 생성을 담당하며, MLLM의 프롬프트 의미 정보와 VAE 기반 인코더의 신호를 모두 통합 ( HunyuanVideo-T2V-13B를 backbone으로)
VAE 기반 인코더는 비디오, 이미지를 인코딩하여 MMDiT 생성 스트림으로 전달함으로써, 비디오 편집 및 identity 유지에 중요한 높은 fidelity 충실도의 시각적 디테일
2. 통합된 작업 범위 및 일반화 능력
UniVideo는 기존의 단일 작업 또는 단일 모달리티에 국한된 모델들이 다루기 어려웠던 광범위한 비디오 작업을 단일 패러다임 아래 통합하고 공동으로 훈련
• 가능한 작업: 텍스트/이미지 to 비디오 생성(T2V/I2V), In-Context Video Generation, In-Context Video Editing, (예: 삽입, 교체, 삭제, 스타일화) 및 이미지 편집
• 멀티모달 instruction 처리: 각 시각적 입력에 ID 태그를 할당하고 (예: <Image 1>), MLLM이 복잡한 instruction을 이해하는 데 사용
• Visual Prompt Understanding: MLLM 브랜치를 활용하여 사용자가 제공한 주석이나 다이어그램과 같은 시각 프롬프트를 해석하고, 이를 비디오 생성에 필요한 프롬프트 토큰으로 변환
3. 주요 성과 및 제로샷 일반화
UniVideo는 광범위한 벤치마크에서 baseline과 동등하거나 이를 능가하는 성능
• 강력한 이해 능력: MLLM 백본을 고정하여 강력한 이해 능력(예: MMBench 83.5점, MM-Vet 66.6점)
• 마스크 없는 편집: UniVideo는 다른 전문가 모델들이 필요로 하는 명시적인 마스크 입력 없이 오직 instuction에만 기반하여 인컨텍스트 비디오 편집(In-Context Video Editing)을 수행하며, 경쟁적인 성능
• 제로샷 일반화 (Zero-Shot Generalization): 통합 설계의 가장 큰 이점으로 두 가지 형태의 일반화 능력 (비디오, 텍스트)
1. 작업 구성 (Task Composition): 훈련 데이터에서 명시적으로 학습되지 않은 복합적인 작업을 단일 instruction 내에서 수행 (예: 편집과 스타일 변환을 결합하거나, 하나의 캐릭터를 삭제하면서 다른 캐릭터을 교체하는 작업).
2. 편집 능력 transfer : 비디오 편집(Free-form Video Editing) 데이터로 훈련되지 않았음에도 불구하고, 대규모 이미지 편집 데이터에서 학습된 능력을 비디오 도메인으로 전이하여 이전에 보지 못한 instruction(예: 비디오 속 인물을 그린 스크린 처리하거나, 재질이나 환경을 변경하는 작업)을 처리할 수 있다.
4. 설계 검증 및 한계
• 이중 스트림의 중요성: MLLM과 MMDiT 모두에게 시각적 입력을 제공하는 것이 중요하며, 만약 시각적 입력을 MLLM에게만 전달할 경우 Identity Preservation 급격하게 저하
• multi task 학습의 효과: 단일 task 모델 대비 멀티태스크 학습이 특히 편집 작업에서 성능을 향상시키는 것으로 확인
• 향후 과제: 현재 UniVideo는 이미지, 비디오, 텍스트를 생성할 수 있는 assembled 시스템으로 간주되며, 향후 작업에서는 종단 간(end-to-end) 훈련된 순수 멀티모달 비디오 모델을 개발하는 것을 목표
또한, 편집 instruction을 엄격하게 따르지 못하거나 원본 비디오의 움직임을 완벽하게 보존하지 못하는 경우가 있어, 더 강력한 비디오 백본이 필요
반응형