FLASH-OMNI는 Diffusion Transformers, DiTs의 이미지 및 비디오 합성 시 발생하는 높은 계산 비용 문제를 해결하기 위한 unified sparse attention engine 1. 문제 제기 및 목표Multi-Modal Diffusion Transformers (MMDiTs)는 시각적 합성에 뛰어난 성능을 보이지만, 높은 계산 복잡성 때문에 고해상도 이미지 및 긴 비디오 생성에서 추론 효율성이 제한이를 위한 기존의 sparsity는 다음과 같은 한계Inconsistent sparsity granularity: 기존의 방식이 다양하다 Existing methods vary from coarse-grained caching to fine-grained block skipping..