flashattention v3

카테고리 없음

flashattention v3

jinuklee 2024. 7. 12. 13:10

flashattention v3 - 2024/ 7/ 11
https://pytorch.org/blog/flashattention-3/
엔비디아 H100 의 이론적으로 처리가능한 최대 FLOPS 의 75% 달성
flashattention v2에 비해 16bit에서 2배 빠름

용어정리 - Claude 피셜

WGMMA
Warp-level General Matrix Multiply Accumulate의 약자입니다.
NVIDIA의 최신 GPU 아키텍처에서 도입된
행렬 곱셈 연산을 위한 특수 명령어

TMA
엔비디아 H100 (Hopper 아키텍쳐)의
비동기 실행(async)에는 글로벌 메모리와 공유 메모리 간에
대용량 데이터를 효율적으로 전송할 수 있는
Tensor 메모리 가속기(TMA) 장치가 포함되어 있음

GEMM
General Matrix Multiplication

Hopper GPUs: exploiting asynchrony of the Tensor Cores and TMA

현재글flashattention v3

이진욱님의 블로그

ai research memo for reference

최근글
인기글

Facebook
Twitter

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

이진욱님의 블로그

flashattention v3

'카테고리 없음'의 다른글

티스토리툴바