在没有NVIDIA显卡的设备上可以通过以下方法优化语音生成速度:
- 优先选择轻量级模型:Kitten-TTS核心模型仅25MB,默认配置已针对CPU进行优化
- 合理设置分块参数:处理长文本时,建议将chunk size调整为300-500字符,减少单次处理压力
- 关闭实时波形显示:在config.yaml中设置
ui.show_waveform: false
可降低CPU负载 - 采用Docker部署:使用
docker-compose-cpu.yml
预设的优化配置,包含内存管理参数 - 升级硬件基础:推荐使用支持AVX指令集的CPU,处理速度可提升约40%
通过以上调整,即使在树莓派等嵌入式设备上也能实现每分钟约500字的稳定生成速度。
本答案来源于文章《Kitten-TTS-Server:一个可自行部署的轻量级文本转语音服务》