ATTENTION IS ALL YOU NEED FOR KV CACHE IN DIFFUSION LLMS 논문리뷰
jinuklee2025. 10. 17. 14:52
반응형
Elastic-Cache: diffusion LLM을 위한 적응형 KV 캐시 관리
확산 거대 언어 모델(DLMs)은 반복적인 디노이징(denoising) 절차로 인해 추론 과정(inference)에서 엄청난 계산량 표준 구현 방식에서는 매 디노이징 단계와 모든 레이어에서 모든 토큰에 대한 쿼리(Q), 키(K), 값(V)을 다시 계산 그러나 KV 상태는 대부분의 단계에서, 특히 얕은 레이어(shallow layers)에서는 거의 변하지 않기 때문에, 이러한 방식은 상당한 **중복성(redundancy)**을 유발하며 지연 시간(latency)을 증가
이러한 DLM 디코딩의 중복성을 체크하고, 예측 품질을 극대화하면서 wall-clock latency을 최소화하기 위해 KV 캐시를 언제, 어떻게 적응적으로 다시 계산할지 결정
◦ 가장 많이 어텐션 받은 토큰에 대해 경량의 **드리프트 통계(drift statistic)**를 계산합니다.
◦ 이 통계가 임계값(γ)을 초과하면, 새로 고침(refresh)을 트리거합니다.
◦ 드리프트는 현재 단계(t)와 이전 단계(t−1) 사이의 가장 많이 어텐션 받은 토큰의 어텐션 가중치(attention weights) 변화를 코사인 유사도(σt,l)로 측정하여 결정됩니다.
• Layer-Aware (어디를 새로 고칠 것인가):
◦ 새로 고침이 트리거되면, 선택된 레이어(\ell^{*})부터 마지막 레이어(L)까지만 KV 캐시를 다시 계산합니다 (ℓ≥ℓ∗).
◦ 얕은 레이어는 캐시를 재사용하고, 활성 예측 창 밖의 MASK 토큰도 블록 캐싱을 통해 재사용됩니다.
• 슬라이딩 윈도우 디코딩 (Sliding Window Decoding): 효율성을 높이기 위해, 모델은 가장 왼쪽에 가깝고 크기 β를 갖는 마스킹된 위치(Mtβ)에 대해서만 예측을 수행하는 슬라이딩 윈도우 디코딩을 사용합니다. 이는 멀리 떨어진 MASK 토큰의 캐시 손실을 최소화하는 데 도움이 됩니다.
Elastic-Cache는 LLaDA-Instruct, LLaDA-1.5, LLaDA-V 등의 모델과 GSM8K, HumanEval 등 다양한 작업에서 일관된 속도 향상을 입증했습니다.
• 주요 성능: Elastic-Cache는 표준 기준선(baseline) 대비 최대 45.1배의 상당한 처리량(throughput) 향상을 달성했습니다.
◦ LLaDA-1.5 모델의 GSM8K (512 토큰)에서 45.1배 속도 향상을 기록했습니다.
◦ HumanEval에서 4.8배 속도 향상을 달성했습니다.
◦ GSM8K에서 기존 신뢰도 기반 접근 방식(Fast-dLLM) 대비 6.8배 높은 처리량(throughput)을 달성했습니다.
• 정확도 유지: 캐시를 적응적으로 업데이트함으로써, Elastic-Cache는 생성 품질의 손실을 무시할 수 있는 수준으로 유지하거나, GSM8K 및 MBPP 같은 일부 작업에서는 Fast-dLLM보다 더 높은 정확도를 유지했습니다.
• 확장성: Elastic-Cache는 생성 길이(generation length)가 길어질수록 처리량이 증가하는 독특한 확장 속성을 보였습니다. 이는 고정 크기의 슬라이딩 윈도우와 자동 캐시 업데이트 덕분입니다. 또한 모델의 정확도가 높을수록(즉, 예측이 정확할수록) Elastic-Cache의 효율성(처리량)이 더 높아지는 경향이 있음을 관찰했습니다.