DeepGEMM专门为混合专家模型(MoE)提供了优化的分组GEMM计算功能。这一特性通过仅对M轴(行数轴)进行分组计算来适配专家共享相同权重形状的场景,显著提升了MoE模型的训练和推理效率。不同于传统的GEMM实现,DeepGEMM的分组计算可以同时处理多个专家的输入矩阵,同时保持高效的内存访问模式和计算节奏。
这种设计特别适合现代大语言模型中广泛采用的稀疏专家结构。在这些模型中,每次推理激活的专家数量通常是全部专家的一小部分。DeepGEMM的分组GEMM支持允许仅计算实际需要的专家输出,避免了冗余计算。库同时提供了连续布局和掩码版本的分组GEMM,可以灵活处理不同类型的MoE结构,满足从训练到推理等不同场景下的需求。
Diese Antwort stammt aus dem ArtikelDeepGEMM: Eine Open-Source-Bibliothek mit effizienter Unterstützung für FP8-Matrixoperationen (DeepSeek Open-Source-Woche Tag 3)Die