2025/10 14

ATTENTION IS ALL YOU NEED FOR KV CACHE IN DIFFUSION LLMS 논문리뷰

Elastic-Cache: diffusion LLM을 위한 적응형 KV 캐시 관리 확산 거대 언어 모델(DLMs)은 반복적인 디노이징(denoising) 절차로 인해 추론 과정(inference)에서 엄청난 계산량표준 구현 방식에서는 매 디노이징 단계와 모든 레이어에서 모든 토큰에 대한 쿼리(Q), 키(K), 값(V)을 다시 계산그러나 KV 상태는 대부분의 단계에서, 특히 얕은 레이어(shallow layers)에서는 거의 변하지 않기 때문에, 이러한 방식은 상당한 **중복성(redundancy)**을 유발하며 지연 시간(latency)을 증가 이러한 DLM 디코딩의 중복성을 체크하고, 예측 품질을 극대화하면서 wall-clock latency을 최소화하기 위해 KV 캐시를 언제, 어떻게 적응적으로 다..

카테고리 없음 2025.10.17

LayerFlow: A Unified Model for Layer-aware Video Generation 논문리뷰

LayerFlow: 레이어 인식 비디오 생성 모델 요약1. 연구 목표 및 해결 과제LayerFlow의 목표는 전경, 배경, 합성 비디오를 동시에 합성하는 레이어 인식 비디오 생성을 달성하는 것입니다. 레이어별 생성은 시각적 자산의 유연한 분해(decomposition) 및 재구성(recomposition)과 독립적인 레이어 수준 편집을 가능하게 합니다.이 분야의 주요 도전 과제는 다음과 같습니다:1. 복잡한 표현: 비디오의 시간적 차원(temporal dimension)이 추가되면서 투명도 채널(alpha matte)을 통합하는 것의 복잡성이 증가합니다.2. 데이터 희소성: 고품질의 다중 레이어 비디오 데이터셋이 부족하고 구축하기 어렵습니다.2. LayerFlow의 통합 프레임워크 (Unified Fra..

카테고리 없음 2025.10.17

Zo3T: Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training 논문리뷰

Zo3T (Zero-shot 3D-Aware Trajectory-Guided Image-to-Video Generation) 1. 연구 배경 및 문제점최근 이미지-투-비디오(Image-to-Video, I2V) 확산 모델은 사실적이고 의미론적으로 일관된 비디오를 생성하는 데 놀라운 능력을 보여주었지만. 사용자 지정 모션을 따르는 궤적 안내(Trajectory-Guided) 비디오 생성 기술은 아직 다음과 같은 문제들을 가지고 있습니다.1. 높은 계산 비용: 기존 방법들은 주석이 달린 희소한 데이터셋을 사용하여 계산 비용이 많이 드는 미세 조정(fine-tuning)에 의존했습니다.2. 3D 관점 무시: 대부분의 기존 접근 방식은 고정된 크기의 경계 상자(bounding boxes) 또는 마스크와 짝을 이..

카테고리 없음 2025.10.17

UNIVIDEO: UNIFIED UNDERSTANDING, GENERATION, AND EDITING FOR VIDEOS 논문리뷰

UniVideo는 언어, 이미지, 비디오 통해 자연스러운 커뮤니케이션을 가능하게 하는 AI 비서 구축을 목표 비디오에 관한 이해, 생성 및 편집을 단일 프레임워크 내에서1. 핵심 아키텍처: 듀얼 스트림 설계 (Dual-Stream Design)UniVideo는 시각적 일관성을 유지하면서 instruction 지시르를 정확하게 해석하기 위해 두 개의 듀얼 스트림 구조Understanding Stream: MLLM (Multimodal Large Language Model) ◦ 역할: 텍스트, 이미지, 비디오 입력을 받아 시각-텍스트적 이해 및 추론 (구체적으로 qwen2.5VL-7B를 backbone). ◦ 출력: MLLM의 마지막 레이어 은닉 상태(hidden states)를 추출하여 의미적 ..

카테고리 없음 2025.10.17

UNIMMVSR: A UNIFIED MULTI-MODAL FRAMEWORK FOR CASCADED VIDEO SUPER-RESOLUTION 논문리뷰

이미지, 비디오, 텍스트 넣어서 계단식 구조로 4k로 비디오 생성한줄 요약 : base model로 저해상도 비디오 latent 생성하고 이를 다시 lightweight super-resolution models = UniMMVSR 에 넣어서 초고해상도 latent 생성후 VAE 디코딩 고해상도 비디오의 어려움: 비디오 생성 파운데이션 모델(foundation models)이 발전하고 있지만, 2K, 4K와 같은 초고해상도 비디오를 직접 생성하는 것은 막대한 계산 비용 • 캐스케이드 패러다임: 이 문제를 해결하기 위해, 대용량 기본 모델이 저해상도 비디오를 생성하고, 경량의 VSR 모델이 후속적으로 미세한 디테일을 합성하는 stage-wise cascading 패러다임이 해결책으로 제시 • 기존 VSR..

카테고리 없음 2025.10.17

UniAnimate-DiT: Human Image Animation with Large-Scale Video Diffusion Transformer 논문리뷰

1. 연구 목표 및 배경• 목표: 정적인 레퍼런스 이미지(Reference Image)를 구동 포즈(Driving Poses)의 안내에 따라 생동감 있고 시간적으로 일관성 있는 움직임을 묘사하는 동적 비디오 시퀀스로 변환하는 것• 기존 방법의 한계: 기존의 방법들은 종종 3D-UNet 기반 모델을 사용하여 비디오를 생성했으며, 시간적 일관성(temporal coherence)과 사실성(realism) 측면에서 어려움-> Diffusion Transformer (DiT) 기반의 Wan2.1과 같은 보다 발전된 비디오 생성 모델로의 전환2. UniAnimate-DiT 접근 방식 및 아키텍처A. 효율적인 매개변수 미세 조정 (LoRA)• 기반 모델: 이 프로젝트는 오픈 소스 Wan2.1 모델(특히 Wan2.1..

카테고리 없음 2025.10.17

InstructX: MLLM (Multimodal Large Language Model) 논문리뷰

InstructX는 MLLM의 강력한 이해 및 추론 능력을 활용하여 이미지 편집과 비디오 편집을 단일 모델 내에서 수행하는 통합 프레임워크 1. 연구 목표 및 배경텍스트-이미지 생성, 이미지 편집, 비디오 편집 등 여러 양식(modality)을 통합하는 모델 개발이 증가• 기존 문제: MLLM의 이해 및 추론 능력을 시각 편집 작업에 활용하기 위해, MLLM과 확산 모델(Diffusion Model)을 효과적으로 통합하는 방법론이 여전히 해결해야 할 과제로 남아있다. 특히 비디오 편집과 같은 어려운 작업비디오 편집의 경우, 고품질 훈련 데이터 수집이 bottleneck2. InstructX의 핵심 접근 방식 및 아키텍처InstructX는 사용자 지침(instruction)에 기반한 편집을 위해 MLLM을..

카테고리 없음 2025.10.17

PanoLora: Bridging Perspective and Panoramic Video Generation with LoRA Adaptation 논문요약

1. 연구 배경 및 문제 정의• 파노라마 비디오의 어려움: 전통적인 perspective-view projection 방식의 비디오는 제한된 시야(FoV)와 단일 시점을 가지지만, 파노라마 비디오는 전체 주변 환경을 렌더링해야 하므로 투영 방식의 차이로 인해 기존 비디오 생성 모델을 적용하기 어렵다• 기존 방법의 한계: 복잡한 아키텍처를 도입하거나 방대한 매개변수 크기를 최적화하기 위해 대규모 훈련 데이터가 필요하며, 이로 인해 비효율적이고 최적화되지 않은 결과논문은 Low-Rank Adaptation (LoRA)의 성공에 착안하여, 파노라마 비디오 생성을 원근 뷰로부터의 적응(adaptation) 문제, 즉 스타일 변환 작업으로 재구성할 것을 제안2. PanoLora 접근 방식 및 이론적 분석• 자유도..

카테고리 없음 2025.10.17

FLASHOMNI: A UNIFIED SPARSE ATTENTION ENGINEFOR DIFFUSION TRANSFORMERS 논문리뷰

FLASH-OMNI는 Diffusion Transformers, DiTs의 이미지 및 비디오 합성 시 발생하는 높은 계산 비용 문제를 해결하기 위한 unified sparse attention engine 1. 문제 제기 및 목표Multi-Modal Diffusion Transformers (MMDiTs)는 시각적 합성에 뛰어난 성능을 보이지만, 높은 계산 복잡성 때문에 고해상도 이미지 및 긴 비디오 생성에서 추론 효율성이 제한이를 위한 기존의 sparsity는 다음과 같은 한계Inconsistent sparsity granularity: 기존의 방식이 다양하다 Existing methods vary from coarse-grained caching to fine-grained block skipping..

카테고리 없음 2025.10.16

Text Slider: Efficient and Plug-and-Play Continuous Concept Control for Image/Video Synthesis via LoRA Adapters 논문리뷰

Text Slider는 확산 모델(Diffusion Models)을 사용하여 이미지 및 비디오를 합성할 때, 시각적 개념을 미세하고 연속적으로 제어할 수 있도록 설계된 경량(lightweight), 효율적, 플러그 앤 플레이(plug-and-play) 방식의 프레임워크최근 확산 모델의 발전으로 이미지 및 비디오 합성이 크게 향상되었지만, 기존의 concept 제어 방법들(예: Concept Slider, Attribute Control)은 다음과 같은 한계• 높은 리소스 요구사항: slider나 임베딩을 학습시키기 위해 많은 훈련 시간과 GPU 메모리 사용량이 필요• 낮은 확장성 및 적응성: 서로 다른 확산 모델 백본(diffusion backbones)에 대해 재훈련이 필요하여 확장성과 실용성이 제한S..

카테고리 없음 2025.10.16
반응형