基础环境准备
- 硬件需求:NVIDIA H800等支持NVLink/RDMA的GPU
- 网络要求:InfiniBand 400Gb/s以上
- 软件依赖:CUDA 11+/NCCL/Python 3.8+
分步安装指南
- 克隆源码库:
git clone https://github.com/deepseek-ai/DeepEP.git
- 安装修改版NVSHMEM(需应用补丁文件)
- 执行编译:
make
生成内核文件 - 设置环境变量:
export NVSHMEM_IB_SL=0
export NVSHMEM_ENABLE_ADAPTIVE_ROUTING=1
(限低延迟模式)
验证安装
运行测试脚本:python tests/test_low_latency.py
预期输出应包含:
- All-to-all通信成功标志
- 各GPU间的带宽测试结果
- 时延统计信息
本答案来源于文章《DeepEP:专为MoE模型优化通信效率的开源工具(DeepSeek 开源周第二天)》