반응형
1. 연구 목표 및 배경
• 목표: 정적인 레퍼런스 이미지(Reference Image)를 구동 포즈(Driving Poses)의 안내에 따라 생동감 있고 시간적으로 일관성 있는 움직임을 묘사하는 동적 비디오 시퀀스로 변환하는 것
• 기존 방법의 한계: 기존의 방법들은 종종 3D-UNet 기반 모델을 사용하여 비디오를 생성했으며, 시간적 일관성(temporal coherence)과 사실성(realism) 측면에서 어려움
-> Diffusion Transformer (DiT) 기반의 Wan2.1과 같은 보다 발전된 비디오 생성 모델로의 전환

2. UniAnimate-DiT 접근 방식 및 아키텍처
A. 효율적인 매개변수 미세 조정 (LoRA)
• 기반 모델: 이 프로젝트는 오픈 소스 Wan2.1 모델(특히 Wan2.1-I2V-14B) 활용
• LoRA 적용: 원본 Wan2.1 모델의 강력한 생성 능력을 보존하면서 훈련 메모리 오버헤드를 현저히 줄이기 위해, LoRA (Low-Rank Adaptation) 기법을 사용하여 최소한의 매개변수 세트만 미세 조정
B. 포즈(Pose) 및 외형(Appearance) 통합
UniAnimate-DiT 아키텍처는 다음의 핵심 구성 요소를 포함합니다:
1. 포즈 인코더 (Pose Encoder): 운전 포즈(driving poses)의 움직임 정보를 인코딩하기 위해 설계 이 모듈은 여러 개의 쌓인 3D 컨볼루션 레이어로 구성되어 있으며, 시공간적 특징을 효과적으로 추출
◦ 깊이의 중요성: 실험 결과, 얕은 구조(예: 4개 레이어)는 수용장(receptive field)이 제한되어 애니메이션을 정확하게 제어하는 데 어려움이 있었으나, **더 깊은 구조(예: 7개 레이어의 3D 컨볼루션)**는 모델이 시간적 맥락을 이해하고 움직임을 제어하는 능력을 향상
2. reference 외형 통합: 레퍼런스 이미지의 외형(reference appearance)은 concatenation을 통해 모델에 통합
3. 레퍼런스 포즈 인코더 (Ref-Pose Encoder): 외형 정렬(appearance alignment)을 강화하기 위해 레퍼런스 포즈 정보도 통합됩, 이 정보는 쌓인 2D 컨볼루션 레이어를 통해 인코딩되며, 노이즈 잠재 벡터(noisy latent vector)와 합산하여 통합
4. 포즈 정보 injection 개선: 초기에는 구동 포즈 특징을 노이즈 잠재 벡터(16차원)와 직접 연결했을 때 제어가 비효율적이었으나, **패치화된 토큰(patchified tokens, 5120차원)**에 포즈 정보를 통합하도록 조정 -> 모델이 상세한 포즈 특징을 학습하고 제어하는 능력이 향상
C. 장기 비디오 생성
UniAnimate-DiT는 중첩 슬라이드 윈도우 전략(overlapped slide window strategy)을 적용하여 긴 비디오 생성도 지원
3. 실험 및 결과
• 데이터셋: 약 10K의 인물 댄스 비디오를 포함하는 데이터셋을 수집하여 훈련에 사용했으며, 이 데이터셋은 키 포즈(key poses)가 주석 처리
• 훈련 해상도: GPU 메모리 제약으로 인해 480P (832x480) 해상도에서 모델을 훈련
• 일반화 및 확장 능력: UniAnimate-DiT의 중요한 특징은 추론 시 더 큰 해상도로 일반화할 수 있는 능력 훈련은 480P에서 이루어졌지만, 추론 시 720P (1280x720) 해상도로 원활하게 업스케일(upscale)할 수 있음
반응형