海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

什么是CosyVoice?它有哪些核心功能?

2025-08-23 491

CosyVoice是阿里开源的一个多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它的核心功能包括:

  • 零样本语音生成:基于短音频样本即可生成与目标声音相似的语音,无需额外训练。
  • 跨语言语音合成:支持多种语言语音生成,同时保持音色一致性。
  • 细粒度情感控制:可添加笑声、停顿等情感表达标签,生成更自然的语音。
  • 方言和口音调整:支持生成四川话等特定方言或口音的语音。
  • 流式语音合成:具有低延迟特性,首包延迟可低至150ms。

该工具的主要优势在于其高音质输出,MOS评分达到5.53接近商业化水平,同时相比上一版本显著降低了30%-50%的发音误差。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文