当前位置：首页 » AI答疑

CosyVoice的流式合成技术实现150ms级首包延迟

2025-08-23

741

实时语音合成的性能突破

针对交互式应用场景，CosyVoice创新性提出基于Chunk-Streaming的流式合成架构，通过三项核心技术实现150ms首包延迟：

在NVIDIA T4硬件环境下测试显示，处理中英文混合文本时，流式模式比传统非流式方案节省68%内存占用，同时保证韵律连续性。实际部署中，该技术已支撑日均百万级的智能外呼请求，错误率低于0.3%。开发者可通过设置stream=True参数启用该模式。