2025/10/16 3

FLASHOMNI: A UNIFIED SPARSE ATTENTION ENGINEFOR DIFFUSION TRANSFORMERS 논문리뷰

FLASH-OMNI는 Diffusion Transformers, DiTs의 이미지 및 비디오 합성 시 발생하는 높은 계산 비용 문제를 해결하기 위한 unified sparse attention engine 1. 문제 제기 및 목표Multi-Modal Diffusion Transformers (MMDiTs)는 시각적 합성에 뛰어난 성능을 보이지만, 높은 계산 복잡성 때문에 고해상도 이미지 및 긴 비디오 생성에서 추론 효율성이 제한이를 위한 기존의 sparsity는 다음과 같은 한계Inconsistent sparsity granularity: 기존의 방식이 다양하다 Existing methods vary from coarse-grained caching to fine-grained block skipping..

카테고리 없음 2025.10.16

Text Slider: Efficient and Plug-and-Play Continuous Concept Control for Image/Video Synthesis via LoRA Adapters 논문리뷰

Text Slider는 확산 모델(Diffusion Models)을 사용하여 이미지 및 비디오를 합성할 때, 시각적 개념을 미세하고 연속적으로 제어할 수 있도록 설계된 경량(lightweight), 효율적, 플러그 앤 플레이(plug-and-play) 방식의 프레임워크최근 확산 모델의 발전으로 이미지 및 비디오 합성이 크게 향상되었지만, 기존의 concept 제어 방법들(예: Concept Slider, Attribute Control)은 다음과 같은 한계• 높은 리소스 요구사항: slider나 임베딩을 학습시키기 위해 많은 훈련 시간과 GPU 메모리 사용량이 필요• 낮은 확장성 및 적응성: 서로 다른 확산 모델 백본(diffusion backbones)에 대해 재훈련이 필요하여 확장성과 실용성이 제한S..

카테고리 없음 2025.10.16

Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning 논문리뷰

최근 비디오 디퓨전 모델의 발전, 기존의 motion transfer (주로 2단계 LoRA(Low-Rank Adaptation) 미세 조정 사용)은 다음과 같은 문제에 직면1. 모션 불일치(Motion inconsistency): 기존의 단순한 2단계 LoRA 튜닝 방식은 3D 어텐션 연산자(3D attention operator) 내의 고유한 공간-시간적 결합(spatial-temporal coupling) 때문에 생성된 비디오와 입력 비디오 간의 동작 일관성을 유지하는 데 어려움2. 튜닝 비효율성(Tuning inefficiency): 대규모 비디오 확산 트랜스포머(DiT) 모델에 적용될 때, 모든 어텐션 헤드를 튜닝하거나 긴 프레임 시퀀스를 사용하는 것은 시간이 많이 걸리고 계산 비용이 높음 S..

카테고리 없음 2025.10.16
반응형