Kitten-TTS-Server 在原始 KittenTTS 模型基础上进行了多项功能增强:
- Web UI 界面:提供直观的浏览器操作界面,支持文本输入、语音选择、语速调整及实时波形预览
- 长文本处理:通过智能断句和音频拼接技术,可生成完整的有声读物
- GPU 加速:利用 onnxruntime-gpu 和 I/O 绑定技术实现 NVIDIA CUDA 加速,显著提升生成速度
- API 支持:提供标准 /tts 接口和兼容 OpenAI 的 /v1/audio/speech 接口
- 部署简化:支持 Docker 容器化部署,内置8种预设语音(4男4女),配置通过单一 config.yaml 文件管理
本答案来源于文章《Kitten-TTS-Server:一个可自行部署的轻量级文本转语音服务》