FlashMLA简介
FlashMLA是由DeepSeek AI开发的一款高效MLA(Multi-head Latent Attention)解码内核,专门为NVIDIA Hopper架构GPU优化。这个项目已经在GitHub上开源,可供开发者免费使用。
core functionality
FlashMLA的主要作用是提升变长序列处理的性能,特别针对AI模型推理任务。其主要功能包括:
- 高效MLA解码:专门针对Hopper GPU优化,显著提升变长序列的处理速度
- 支持BF16精度:利用半精度浮点运算在保持精度的同时提升计算效率
- 分页KV缓存:采用块大小为64的分页机制,有效管理内存
performance
在H800 SXM5 GPU上,FlashMLA表现出色:
- 内存密集型配置下可达3000 GB/s带宽
- 计算密集型配置下可达580 TFLOPS的算力
This answer comes from the articleFlashMLA: Optimizing the MLA Decoding Kernel for Hopper GPUs (DeepSeek Open Source Week Day 1)The