海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

DeepEP的全对全通信优化实现了训练和推理场景的双重性能突破

2025-09-05 1.2 K

通信优化的核心技术实现

DeepEP最具特色的技术创新在于其对all-to-all通信模式的全方位优化。在训练场景中,其采用的分组限域算法(Group-Domain Algorithm)可以智能判断数据分发路径,当检测到同节点通信时自动启用NVLink通道(理论带宽可达900GB/s),跨节点通信则切换至RDMA(支持400Gb/s InfiniBand)。

特别针对推理场景的延迟敏感特性,开发团队设计了纯RDMA通信栈,通过消除传统TCP/IP协议栈的开销,在DeepSeek-V3模型上实现了2.3倍的延迟降低。测试数据显示,在7168维隐藏层的典型配置下,128批次的推理延迟可控制在8ms以内。

该功能还原生支持FP8数据格式,通过1/2的精度存储需求,使通信带宽利用效率提升近50%,这在资源敏感型应用场景中具有重要价值。

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文