要实现长文本语音无缝衔接,需要从以下三个方面进行配置:
- 启用智能断句功能:确保Web界面中
Split text into chunks
选项处于勾选状态 - 调整停顿参数:在config.yaml中设置
silence_duration: 0.3
(单位秒)添加自然停顿 - 优化分块策略:按照标点符号自动分块,建议配合
max_chars: 450
参数限制单段长度
对于专业的有声书制作,还可以:
- 在文本源中手动插入
|
符号指定分块位置 - 使用
<break/>
SSML标签控制具体停顿时长
处理后相邻片段间的间隔将控制在200-400毫秒,达到广播级流畅度。
本答案来源于文章《Kitten-TTS-Server:一个可自行部署的轻量级文本转语音服务》