当前位置：首页 » AI答疑

CosyVoice的细粒度情感控制支持8类副语言学标记

2025-08-23

658

情感语音合成的工程创新

CosyVoice在语音合成领域首次实现了基于符号标记的实时情感控制，其Tokenizer模块预设了[laughter][cry][pause=200ms]等8类副语言学标签，支持50ms级精度的韵律调整。技术方案上采用多层次条件对抗训练：

实测数据显示，添加[laughter]标签可使合成语音的愉悦度评分提升42%，停顿标记误差小于±10ms。该功能已应用于游戏NPC对话系统，相比传统情感语音合成方案降低90%的标注成本。