기존 diffusion 모델은 비디오 생성에서 긴 동영상을 생성x, subject identity를 시간에 따라 일정하게 유지하지 못함 이를 위해 -> in-context LoRA finetuning strategy that injects subject appearance at the token level for identity preservation, while simultaneously conditioning on pose information at the channel level for fine-grained motion control. 참조 이미지 injection - token dimension 참조 이미지 잠재 벡터(VAE latents)를 노이즈 잠재 벡터(VAE 결과)와 연결(concat..