语音克隆功能仅需10秒参考音频即可生成相似语音

2025-08-23

796

语音克隆的前沿技术

Kyutai的语音克隆系统展示了突破性的少样本学习能力。其核心技术是基于对抗生成网络的声纹编码器，能够从短短10秒的参考音频中提取说话人的音色、语调和发音特征。这些特征与语言模型分离，允许在保持语音特色的同时自由控制文本内容。

系统采用了两阶段训练策略：第一阶段使用数千小时多说话人数据预训练通用声码器；第二阶段通过适配器技术微调个性化语音特征。实验显示，生成的语音在MOS(平均意见分)测试中达到4.2分(5分制)，85%的测试者无法分辨克隆语音和真实录音。

需要注意的是，该功能目前尚未完全开源，仅提供研究预览版。官方表示出于伦理考虑，正在开发水印技术以识别合成语音。完整的开源版本预计将包含更多安全控制机制。