Elastic-Cache: diffusion LLM을 위한 적응형 KV 캐시 관리 확산 거대 언어 모델(DLMs)은 반복적인 디노이징(denoising) 절차로 인해 추론 과정(inference)에서 엄청난 계산량표준 구현 방식에서는 매 디노이징 단계와 모든 레이어에서 모든 토큰에 대한 쿼리(Q), 키(K), 값(V)을 다시 계산그러나 KV 상태는 대부분의 단계에서, 특히 얕은 레이어(shallow layers)에서는 거의 변하지 않기 때문에, 이러한 방식은 상당한 **중복성(redundancy)**을 유발하며 지연 시간(latency)을 증가 이러한 DLM 디코딩의 중복성을 체크하고, 예측 품질을 극대화하면서 wall-clock latency을 최소화하기 위해 KV 캐시를 언제, 어떻게 적응적으로 다..