基础环境准备
- Hardware-Voraussetzung:NVIDIA H800等支持NVLink/RDMA的GPU
- Netzanforderung:InfiniBand 400Gb/s以上
- Software-Abhängigkeit:CUDA 11+/NCCL/Python 3.8+
Schritt-für-Schritt-Anleitung
- 克隆源码库:
git clone https://github.com/deepseek-ai/DeepEP.git
- 安装修改版NVSHMEM(需应用补丁文件)
- 执行编译:
make
生成内核文件 - Setzen von Umgebungsvariablen:
export NVSHMEM_IB_SL=0
export NVSHMEM_ENABLE_ADAPTIVE_ROUTING=1
(限低延迟模式)
Überprüfen der Installation
Führen Sie das Testskript aus:python tests/test_low_latency.py
预期输出应包含:
- All-to-all通信成功标志
- 各GPU间的带宽测试结果
- 时延统计信息
Diese Antwort stammt aus dem ArtikelDeepEP: Ein Open-Source-Tool zur Optimierung der Kommunikationseffizienz speziell für MoE-Modelle (DeepSeek Open Source Week Day 2)Die