DeepGEMM 支持以下核心功能:
- FP8 矩阵运算:提供高效的 FP8 通用矩阵乘法(GEMM),适用于高性能计算场景
- MoEモデルの最適化:支持混合专家模型的分组 GEMM,仅对 M 轴分组,适配专家共享相同形状的场景
- ジャスト・イン・タイム(JIT)コンパイル:通过运行时编译内核,无需预编译即可适配不同硬件环境
- ハイパフォーマンス・コンピューティング(HPC):在 NVIDIA Hopper GPU 上实现超过 1350 TFLOPS 的 FP8 计算吞吐量
- シンプルなコード設計:核心代码约 300 行,易于学习和二次开发
- 高い互換性:支持普通 GEMM 和带掩码的分组 GEMM,适配多种推理场景
- オープンソースで無料:基于 MIT 协议发布,适用于研究和商业用途
この答えは記事から得たものである。DeepGEMM: FP8行列演算を効率的にサポートするオープンソースライブラリ (DeepSeek Open Source Week 3日目)について