2025/10/15 3

PoseGen: In-Context LoRA Finetuning for Pose-Controllable Long Human Video Generation 논문리뷰

기존 diffusion 모델은 비디오 생성에서 긴 동영상을 생성x, subject identity를 시간에 따라 일정하게 유지하지 못함 이를 위해 -> in-context LoRA finetuning strategy that injects subject appearance at the token level for identity preservation, while simultaneously conditioning on pose information at the channel level for fine-grained motion control. 참조 이미지 injection - token dimension 참조 이미지 잠재 벡터(VAE latents)를 노이즈 잠재 벡터(VAE 결과)와 연결(concat..

카테고리 없음 2025.10.15

Diffusion Transformers with Representation Autoencoders 논문리뷰

https://arxiv.org/html/2510.11690v1 Diffusion Transformers with Representation AutoencodersAutoencoders have long been used to compress images into low-dimensional representations for reconstruction (Hinton & Salakhutdinov, 2006; Vincent et al., 2008). VAEs (Kingma & Welling, 2014) extend this paradigm by mapping inputs to Gaussian distributiarxiv.org최근의 diffusion transformer 구조에는 기존의 VAE가 많이 사용..

카테고리 없음 2025.10.15

VACE: All-in-One Video Creation and Editing 논문리뷰

https://ali-vilab.github.io/VACE-Page/.reference-to-video generation, video-to-video editing, masked video-to-video editing의 과제를 수행한다VACE는 빠른 생성을 위해 LTX-Video-2B를, 고품질 출력을 위해 Wan-T2V-14B를 fine tuning 했다1..텍스트-비디오 생성 (T2V, Text-to-Video Generation): 텍스트만 입력으로 사용하는 기본 비디오 생성 작업2. 참조-비디오 생성 (R2V, Reference-to-Video Generation): 얼굴, 객체 또는 특정 프레임과 같은 지정된 콘텐츠가 생성된 비디오에 나타나도록 추가 이미지(참조)를 요구 일종의 I2V3. 비..

카테고리 없음 2025.10.15
반응형