讯飞智作的声音克隆服务采用专利的声纹建模技术:
- 采样要求:需要用户录制30分钟的标准发音音频(约200-300句话),涵盖所有汉语音素组合
- 建模过程:通过对比学习算法提取声纹特征,构建包含200+维度特征的个性化声学模型
- 应用效果:克隆出的声音相似度测试得分达85%以上,支持情感语调的智能模仿
该技术特别适用于需要保持品牌声音一致性的企业客户,实测显示能降低60%的真人配音成本。目前已有超过200家媒体机构采用此服务制作标准化音频内容。
本答案来源于文章《讯飞智作:将文字转换成语音和数字人视频》