ベース環境の準備
- ハードウェア要件:NVIDIA H800等支持NVLink/RDMA的GPU
- ネットワーク要件:InfiniBand 400Gb/s以上
- ソフトウェア依存:CUDA 11+/NCCL/Python 3.8+
ステップバイステップのインストールガイド
- 克隆源码库:
git clone https://github.com/deepseek-ai/DeepEP.git
- 安装修改版NVSHMEM(需应用补丁文件)
- 执行编译:
make
生成内核文件 - 環境変数の設定:
export NVSHMEM_IB_SL=0
export NVSHMEM_ENABLE_ADAPTIVE_ROUTING=1
(限低延迟模式)
インストールの確認
テストスクリプトを実行する:python tests/test_low_latency.py
预期输出应包含:
- All-to-all通信成功标志
- 各GPU间的带宽测试结果
- 时延统计信息
この答えは記事から得たものである。DeepEP:MoEモデルに特化した通信効率を最適化するオープンソースツール(DeepSeekオープンソースウィーク2日目)について