Overseas access: www.kdjingpai.com
Bookmark Us
Current Position:fig. beginning " AI Answers

怎样在推理阶段优化动态token分配场景下的FP8矩阵运算?

2025-08-30 1.3 K

动态token推理的掩码分组GEMM方案

在自回归生成等场景中,token分配动态变化会导致传统GEMM计算效率下降。DeepGEMM的解决方案是:

  • 掩码机制:通过布尔张量标识有效token位置,跳过无效计算
  • 内存压缩:自动优化显存访问模式,减少冗余数据加载
  • CUDA图兼容:支持与CUDA Graph技术配合使用,降低内核启动开销

Implement the process:

  1. 构建标识有效token的mask张量(形状为[M],类型torch.bool)
  2. 保持输入矩阵B的N/K轴维度固定
  3. 调用m_grouped_gemm_fp8_fp8_bf16_nt_masked函数

Caveats:

  • 建议batch_size较大时(>64)启用此功能
  • 可结合torch.compile进一步优化执行效率
  • 输出自动对齐到BF16格式,无需额外转换

Recommended

Can't find AI tools? Try here!

Just type in the keyword Accessibility Bing SearchYou can quickly find all the AI tools on this site.

Top

en_USEnglish