Overseas access: www.kdjingpai.com
Bookmark Us
Current Position:fig. beginning " AI Answers

语音克隆功能仅需10秒参考音频即可生成相似语音

2025-08-23 796

语音克隆的前沿技术

Kyutai的语音克隆系统展示了突破性的少样本学习能力。其核心技术是基于对抗生成网络的声纹编码器,能够从短短10秒的参考音频中提取说话人的音色、语调和发音特征。这些特征与语言模型分离,允许在保持语音特色的同时自由控制文本内容。

系统采用了两阶段训练策略:第一阶段使用数千小时多说话人数据预训练通用声码器;第二阶段通过适配器技术微调个性化语音特征。实验显示,生成的语音在MOS(平均意见分)测试中达到4.2分(5分制),85%的测试者无法分辨克隆语音和真实录音。

需要注意的是,该功能目前尚未完全开源,仅提供研究预览版。官方表示出于伦理考虑,正在开发水印技术以识别合成语音。完整的开源版本预计将包含更多安全控制机制。

Recommended

Can't find AI tools? Try here!

Just type in the keyword Accessibility Bing SearchYou can quickly find all the AI tools on this site.

Top

en_USEnglish