语音生成五步流程
- 配置文件修改:编辑
voices.json
选择目标语言和音色(如'en_US'
英语美国女声) - 文本输入:在示例脚本
hello.py
的text_to_speak
变量填入目标文本(支持SSML标记) - 参数调优:调整
speed
语速(0.5-2.0)、pitch
音高(-20~+20)等参数 - 执行生成:运行
python hello.py
触发合成流程 - 输出管理:默认生成
output.wav
,可通过修改soundfile.write
参数变更格式
高级功能操作
- 批量处理:可通过循环结构处理文本列表
- 实时流式输出:调用
stream
接口实现逐句播放 - 音色融合:实验性支持混合多个声音特征(需修改model_config.json)
调试技巧
当出现合成异常时,建议:检查onnx文件MD5校验值、确认Python环境为64位版本、升级ONNX Runtime到最新版。
本答案来源于文章《Kokoro-ONNX:高效文本转语音工具,支持多语言和多声音选择》