Overseas access: www.kdjingpai.com

Bookmark Us

Current Position:fig. beginning " AI Answers

什么是FlashMLA？它的主要作用是什么？

2025-09-05

1.5 K

FlashMLA简介

FlashMLA是由DeepSeek AI开发的一款高效MLA（Multi-head Latent Attention）解码内核，专门为NVIDIA Hopper架构GPU优化。这个项目已经在GitHub上开源，可供开发者免费使用。

core functionality

FlashMLA的主要作用是提升变长序列处理的性能，特别针对AI模型推理任务。其主要功能包括：

高效MLA解码：专门针对Hopper GPU优化，显著提升变长序列的处理速度
支持BF16精度：利用半精度浮点运算在保持精度的同时提升计算效率
分页KV缓存：采用块大小为64的分页机制，有效管理内存

performance

在H800 SXM5 GPU上，FlashMLA表现出色：

内存密集型配置下可达3000 GB/s带宽
计算密集型配置下可达580 TFLOPS的算力

This answer comes from the articleFlashMLA: Optimizing the MLA Decoding Kernel for Hopper GPUs (DeepSeek Open Source Week Day 1)The

Related articles

May not be reproduced without permission:AI productivity tools " 什么是FlashMLA？它的主要作用是什么？

Recommended

English