반응형
최근 비디오 디퓨전 모델의 발전,
기존의 motion transfer (주로 2단계 LoRA(Low-Rank Adaptation) 미세 조정 사용)은 다음과 같은 문제에 직면
1. 모션 불일치(Motion inconsistency): 기존의 단순한 2단계 LoRA 튜닝 방식은 3D 어텐션 연산자(3D attention operator) 내의 고유한 공간-시간적 결합(spatial-temporal coupling) 때문에 생성된 비디오와 입력 비디오 간의 동작 일관성을 유지하는 데 어려움
2. 튜닝 비효율성(Tuning inefficiency): 대규모 비디오 확산 트랜스포머(DiT) 모델에 적용될 때, 모든 어텐션 헤드를 튜닝하거나 긴 프레임 시퀀스를 사용하는 것은 시간이 많이 걸리고 계산 비용이 높음

Spatial-Temporal Decoupled LoRA
DiT 모델의 3D 어텐션 블록은 시간 + 공간 3D 어텐션을 사용하므로 모션 정보 분리하기 어려움
->
• 어텐션 헤드 분류: pretrained DiT의 3D Full Attention에 내재된 **희소성(sparsity)**을 활용하여 어텐션 헤드를 공간(spatial type) 또는 **시간(temporal type)**으로 분류
decoupled tuning
◦ 1단계 (공간 LoRA): 공간적 외관(spatial appearance)을 학습하기 위해 무작위로 샘플링된 단일 프레임을 사용하여 공간 헤드에만 LoRA를 주입하고 최적화
◦ 2단계 (시간 LoRA): 공간 LoRA를 고정한 후, 비디오의 **시간적 동작(temporal motion)**을 학습하기 위해 시간 헤드에만 LoRA를 미세 조정
tuning acceleration
고비용 문제를 해결하기 위해 2단계(temporal lora)에 두 가지 기술
1. 희소 모션 샘플링 (Sparse Motion Sampling): 전체 프레임 대신 더 적은 수의 프레임( 예: 17프레임)을 사용하여 튜닝 속도를 가속화 -> 튜닝 시간을 2.6배 단축시킵니다 (2053초에서 781초로).
2. Adaptive Rotary Positional Embedding: 희소 샘플링을 사용할 때 프레임 인덱스에 따라 위치 종속성(position dependency)이 깨지는 것을 방지
->
이는 샘플링된 프레임 수가 적더라도 원래의 비디오 DiT의 훈련 범위([0, F])와 정렬되도록 위치 인코딩을 조정하여 모션의 정렬(motion alignment)과 보간 능력 향상
반응형