部署前需满足以下环境要求:
- 操作系统:Windows 10/11 (64位) 或 Linux (推荐 Debian/Ubuntu)
- Python:3.10 或更高版本
- 必要组件:Git(用于克隆代码)、eSpeak NG(文本音素化处理)
- GPU 加速可选:需 NVIDIA 显卡并支持 CUDA,Linux 需额外安装 libsndfile1 和 ffmpeg
特别注意:Windows 用户安装 eSpeak NG 后需重启终端,可通过 sudo apt install espeak-ng
(Linux)或安装 .msi 包(Windows)完成依赖安装。
本答案来源于文章《Kitten-TTS-Server:一个可自行部署的轻量级文本转语音服务》