카테고리 없음

Diffusion Transformers with Representation Autoencoders 논문리뷰

jinuklee 2025. 10. 15. 14:11
반응형

https://arxiv.org/html/2510.11690v1

 

Diffusion Transformers with Representation Autoencoders

Autoencoders have long been used to compress images into low-dimensional representations for reconstruction (Hinton & Salakhutdinov, 2006; Vincent et al., 2008). VAEs (Kingma & Welling, 2014) extend this paradigm by mapping inputs to Gaussian distributi

arxiv.org

최근의 diffusion transformer 구조에는 기존의 VAE가 많이 사용되는데

이에는  여러가지 문제가 있다

1) 아키텍쳐 outdated backbones that compromise architectural simplicity

2) 잠재공간 차원 low-dimensional latent spaces that restrict information capacity

3) 기본적인 표현력 weak representations that result from purely reconstruction-based training and ultimately limit generative quality

이제 이 VAE를 계속 발전한 pretrained representaion 인코더 (siglip, dino, map) + 훈련된 디코더로 교체

DiT가 디노이징을 수행하기 위한 latent를 생성하고 decode할때 VAE가 사용되지만 이는 충분하지 못함-> 이를 교체 

We analyze the sources of this difficulty, propose theoretically motivated solutions, and validate them empirically. Our approach achieves faster convergence without auxiliary representation alignment losses

 

요즘 이미지 인코더(예: DINO, CLIP, MAE) 같은 모델들이
“그림의 의미(무엇이 들어있는지)”를 잘 이해하는 방향으로 발전
즉, 단순히 이미지를 복원하는 대신 “이건 고양이야, 저건 사람 얼굴이야” 같은 의미적 특징을 capture

하지만 지금의 확산 모델(diffusion model) 들은
여전히 VAE라는 “재구성 중심(autoencoder)” 인코더를 써서,
그림의 의미보다는 픽셀 복사에 가까운 방식으로 이미지 처리
즉, “보이는 그대로 복사”는 잘하지만 “의미를 이해한 생성”은 X.


⚙️ 기존 접근의 문제

최근엔 “그럼 의미 인코더(DINO, CLIP)를 확산 모델에 연결해보자!” 하는 연구들
근데 이건 복잡한 추가 학습 과정이 필요하고,
보조 손실(auxiliary loss) 도 넣어야 하고,
튜닝도 어렵다는 문제

그 이유는 밑의 가정

“의미를 잘 이해하는 인코더는, 이미지를 정확히 복원하긴 어려워.”
(즉, 의미 중심 인코더는 세부 픽셀 정보를 잃는다고 믿음)

게다가 확산 모델은 잠재 차원이 높아지면 학습이 불안정하다고 알려져 있어서,
대부분은 낮은 차원(latent dimension) 의 VAE 사용


💡 논문의 핵심 주장

“이 두 가지 믿음이 사실은 틀렸을 수도 있다.”

즉,

  1. 의미 중심 인코더(DINO, CLIP 등) 도 사실 이미지를 잘 복원할 수 있다.
  2. 고차원(latent dimension이 큰) 잠재 공간에서도 확산 모델 학습은 안정적일 수 있다.

그래서 RAE (Representation AutoEncoder) 제안
👉 기존의 VAE 대신, 의미 인코더(예: DINO) 를 그대로 쓰고,
👉 그 뒤에 새로운 디코더

이걸로 얻는 이점은:

  • 의미적으로 더 풍부한 잠재 공간
  • 구조가 더 깔끔하고 확산 모델에 잘 맞는 표현
  • 복잡한 손실이나 튜닝 불필요

🧩 기술적 개선점

몇 가지 수정이 필요

  1. 트랜스포머 구조: 인코더의 차원이 커졌으니, 폭(width)을 맞춰줘야 함
  2. 노이즈 스케줄: 기존은 해상도 기준이었는데, 이제는 “차원 기준”으로 바꿔야 함
  3. 디코더 훈련: 확산 모델이 만든 “연속적인(latent)” 입력에도 잘 대응하도록 노이즈 보강 학습을 해야 함

이걸 잘 해결하기 위해 저자들이 만든 게 DiT-DH라는 새로운 확산 트랜스포머 구조
폭은 넓지만 계산은 적게 드는 효율적인 설계

 

 

반응형