카테고리 없음

InstructX: MLLM (Multimodal Large Language Model) 논문리뷰

jinuklee 2025. 10. 17. 01:20
반응형
InstructX는 MLLM의 강력한 이해 및 추론 능력을 활용하여 이미지 편집과 비디오 편집을 단일 모델 내에서 수행하는 통합 프레임워크

 

1. 연구 목표 및 배경
텍스트-이미지 생성, 이미지 편집, 비디오 편집 등 여러 양식(modality)을 통합하는 모델 개발이 증가
• 기존 문제: MLLM의 이해 및 추론 능력을 시각 편집 작업에 활용하기 위해, MLLM과 확산 모델(Diffusion Model)을 효과적으로 통합하는 방법론이 여전히 해결해야 할 과제로 남아있다. 특히 비디오 편집과 같은 어려운 작업
비디오 편집의 경우, 고품질 훈련 데이터 수집이 bottleneck
2. InstructX의 핵심 접근 방식 및 아키텍처
InstructX는 사용자 지침(instruction)에 기반한 편집을 위해 MLLM을 이해 모듈로, Diffusion Transformer(DiT)를 생성 모듈로 활용
A. MLLM과 확산 모델의 통합 (핵심 설계)
MLLM과 확산 모델을 연결하는 여러 설계 방식을 실험적으로 분석
최종적으로 InstructX가 채택한 구조는 다음과 같습니다:
1. MLLM 활용: QWen2.5-VL-3B를 다중 모드 이해 모델로 사용하여 편집 지침과 원본 이미지/비디오를 임베딩
2. Learnable Queries: MLLM의 입력 시퀀스에 학습 가능한 쿼리(queries) 세트를 추가하여 편집 정보를 추출, MLLM 출력에서는 메타 쿼리(meta-query) 특징만 유지
3. MLLM LoRA 미세 조정: MLLM을 단순히 특징 추출기로 취급하는 것이 아니라, **MLLM 자체의 LoRA를 fine-tune, 이는 편집이 후속 대형 커넥터가 아닌 MLLM 내에서 주로 실현되어야 한다는 가설을 검증한 결과
4. MLP 커넥터: MLLM과 DiT(Wan2.1-14B) 사이에 간단한 2계층 MLP(Multi-Layer Perceptron) 커넥터를 사용하여 MLLM에서 생성된 쿼리를 DiT의 텍스트 임베딩으로 대체
B. 통합 모델링 및 비디오 편집 능력 확장
양식별 쿼리 분리: 이미지 입력에는 256개의 쿼리를, 비디오 입력에는 512개의 쿼리를 사용하여, 단일 아키텍처 내에서 이미지와 비디오 양식을 구별하고 특징 추출을 개선
이미지 데이터 활용: 이미지와 비디오 데이터를 혼합하여 훈련함으로써, **이미지 데이터에서 학습된 편집 능력이 명시적인 감독 없이도 비디오 편집 능력으로 효과적으로 전이된다(emergent video editing capabilities)**는 것을 발견 -> 비디오 훈련 데이터 부족 문제를 완화
    ◦ 예를 들어, 비디오 데이터에는 없지만 이미지 데이터에는 존재하는 segmentation, style transfer 작업 능력이 mixed training 후 비디오에서도 나타남
C. 훈련 전략
훈련 과정은 세 단계로 
1. 특징 정렬 훈련 (Feature Alignment Training): MLLM의 특징 공간과 DiT의 생성 공간을 정렬하며, MLLM LoRA, 학습 가능한 쿼리, MLP 커넥터만 이미지 instruction 데이터로 훈련
2. 전체 데이터 훈련 (Full-Data Training): MLLM LoRA, 쿼리, MLP, 그리고 전체 DiT를 이미지 및 비디오 데이터 혼합으로 훈련하여 통합 및 일반화된 편집 능력을 획득, 이 단계에서 VAE 인코딩을 추가하여 원본 시각 입력과의 충실도를 높임
3. 품질 미세 조정 (Quality Fine-Tuning): 소량의 고품질 데이터를 사용하여 결과물의 질을 개선 (예: 기름지거나 플라스틱 같은 질감을 개선)
3. 주요 결과 및 기여
최첨단 성능 (SOTA): InstructX는 다양한 이미지 및 비디오 편집 작업에서 최첨단 성능을 달성
    ◦ 이미지 편집 벤치마크 (ImgEdit-Bench, GEdit-Bench)에서 다른 오픈소스 방법들을 능가하고 경쟁적인 성능
    ◦ 비디오 편집 벤치마크 (VIE-Bench)에서 현존하는 오픈소스 비디오 편집 모델보다 우수하며, 일부 폐쇄형 모델(closed-source solutions)과 대등한 성능
VIE-Bench 도입: 지침 기반 비디오 편집을 위한 새로운 MLLM 기반 벤치마크인 VIE-Bench를 도입, 이는 8개 카테고리에 걸친 140개의 고품질 편집 사례를 포함
이해 능력 향상: MLLM을 활용하면 확산 모델 단독으로는 이해하기 어려운 복잡하고 미세한 세부 사항(예: 코너 선반의 책)을 잘 이해하고 편집가능
반응형