Preparação do ambiente básico
- Requisitos de hardware:NVIDIA H800等支持NVLink/RDMA的GPU
- requisito de rede:InfiniBand 400Gb/s以上
- dependência de software:CUDA 11+/NCCL/Python 3.8+
Guia de instalação passo a passo
- 克隆源码库:
git clone https://github.com/deepseek-ai/DeepEP.git
- 安装修改版NVSHMEM(需应用补丁文件)
- 执行编译:
make
生成内核文件 - Configuração de variáveis de ambiente:
export NVSHMEM_IB_SL=0
export NVSHMEM_ENABLE_ADAPTIVE_ROUTING=1
(限低延迟模式)
Verificar a instalação
Execute o script de teste:python tests/test_low_latency.py
预期输出应包含:
- All-to-all通信成功标志
- 各GPU间的带宽测试结果
- 时延统计信息
Essa resposta foi extraída do artigoDeepEP: Uma ferramenta de código aberto para otimizar a eficiência da comunicação especificamente para modelos MoE (DeepSeek Open Source Week Day 2)O