카테고리 없음

VACE: All-in-One Video Creation and Editing 논문리뷰

jinuklee 2025. 10. 15. 13:48
반응형

 https://ali-vilab.github.io/VACE-Page/.

reference-to-video generation, video-to-video editing, masked video-to-video editing의 과제를 수행한다

VACE는 빠른 생성을 위해 LTX-Video-2B를, 고품질 출력을 위해 Wan-T2V-14B를 fine tuning 했다

1..텍스트-비디오 생성 (T2V, Text-to-Video Generation): 텍스트만 입력으로 사용하는 기본 비디오 생성 작업
2. 참조-비디오 생성 (R2V, Reference-to-Video Generation): 얼굴, 객체 또는 특정 프레임과 같은 지정된 콘텐츠가 생성된 비디오에 나타나도록 추가 이미지(참조)를 요구 일종의 I2V
3. 비디오-비디오 편집 (V2V, Video-to-Video Editing): 제공된 비디오 전체에 변경 사항을 적용하는 작업(예: 컬러화, 스타일화, 구조 변환(깊이 제어), 모션 변환(레이아웃 제어))
4. masked 비디오-비디오 편집 (MV2V, Masked Video-to-Video Editing): 제공된 3D 관심 영역(ROI) 내에서만 입력 비디오를 변경하고 나머지 변경되지 않은 영역과 자연스럽게 블렌딩하는 작업(예: 인페인팅(Inpainting), 아웃페인팅(Outpainting), 시간적 확장)

'Swap Anything' (참조 + 인페인팅) 및 'Animate Anything' (프레임 참조 + 포즈 제어) 와 같이 2가지 합친것도 지원

 

아키텍쳐 

Context Adapter 구조: 시간적 및 공간적 차원의 표현을 사용하여 모델에 다양한 작업 개념을 주입함으로써 임의의 비디오 합성 작업을 유연하게 처리 -> 이는 Context Blocks를 사용하는 Res-Tuning 방식을 통해 구현되어 빠른 수렴

반응형