海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

CosyVoice的细粒度情感控制支持8类副语言学标记

2025-08-23 491

情感语音合成的工程创新

CosyVoice在语音合成领域首次实现了基于符号标记的实时情感控制,其Tokenizer模块预设了[laughter][cry][pause=200ms]等8类副语言学标签,支持50ms级精度的韵律调整。技术方案上采用多层次条件对抗训练:

  • 底层特征:使用Pitch-Contour预测网络建模情感韵律
  • 中层控制:通过Prosody-Tokens实现跨语种情感迁移
  • 上层应用:开放[style=happy]等语义级控制接口

实测数据显示,添加[laughter]标签可使合成语音的愉悦度评分提升42%,停顿标记误差小于±10ms。该功能已应用于游戏NPC对话系统,相比传统情感语音合成方案降低90%的标注成本。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文