flashattention v3 - 2024/ 7/ 11
https://pytorch.org/blog/flashattention-3/
엔비디아 H100 의 이론적으로 처리가능한 최대 FLOPS 의 75% 달성
flashattention v2에 비해 16bit에서 2배 빠름
용어정리 - Claude 피셜
WGMMA
Warp-level General Matrix Multiply Accumulate의 약자입니다.
NVIDIA의 최신 GPU 아키텍처에서 도입된
행렬 곱셈 연산을 위한 특수 명령어
TMA
엔비디아 H100 (Hopper 아키텍쳐)의
비동기 실행(async)에는 글로벌 메모리와 공유 메모리 간에
대용량 데이터를 효율적으로 전송할 수 있는
Tensor 메모리 가속기(TMA) 장치가 포함되어 있음
GEMM
General Matrix Multiplication
Hopper GPUs: exploiting asynchrony of the Tensor Cores and TMA