CosyVoice是阿里开源的一个多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它的核心功能包括:
- Geração de fala com amostragem zero:基于短音频样本即可生成与目标声音相似的语音,无需额外训练。
- síntese de fala em vários idiomas:支持多种语言语音生成,同时保持音色一致性。
- 细粒度情感控制:可添加笑声、停顿等情感表达标签,生成更自然的语音。
- 方言和口音调整:支持生成四川话等特定方言或口音的语音。
- 流式语音合成:具有低延迟特性,首包延迟可低至150ms。
该工具的主要优势在于其高音质输出,MOS评分达到5.53接近商业化水平,同时相比上一版本显著降低了30%-50%的发音误差。
Essa resposta foi extraída do artigoCosyVoice: ferramenta de geração e clonagem multilíngue de código aberto AliO