Overseas access: www.kdjingpai.com
Bookmark Us
Current Position:fig. beginning " AI Answers

DeepEP的全对全通信优化实现了训练和推理场景的双重性能突破

2025-09-05 1.3 K

通信优化的核心技术实现

DeepEP最具特色的技术创新在于其对all-to-all通信模式的全方位优化。在训练场景中,其采用的分组限域算法(Group-Domain Algorithm)可以智能判断数据分发路径,当检测到同节点通信时自动启用NVLink通道(理论带宽可达900GB/s),跨节点通信则切换至RDMA(支持400Gb/s InfiniBand)。

特别针对推理场景的延迟敏感特性,开发团队设计了纯RDMA通信栈,通过消除传统TCP/IP协议栈的开销,在DeepSeek-V3模型上实现了2.3倍的延迟降低。测试数据显示,在7168维隐藏层的典型配置下,128批次的推理延迟可控制在8ms以内。

该功能还原生支持FP8数据格式,通过1/2的精度存储需求,使通信带宽利用效率提升近50%,这在资源敏感型应用场景中具有重要价值。

Recommended

Can't find AI tools? Try here!

Just type in the keyword Accessibility Bing SearchYou can quickly find all the AI tools on this site.

Top

en_USEnglish