KittenTTS 是一个轻量级、高效的文本转语音(TTS)模型,具有以下核心特点:
- 超小体积:模型仅占用不到 25MB 存储空间,参数量约 1500 万,远小于传统 TTS 模型。
- 低资源运行:无需 GPU 支持,仅用 CPU 即可高效运行,适合嵌入式设备和边缘计算场景。
- 快速生成:测试显示在 M1 Mac 上生成 26 秒音频仅需约 19 秒。
- 开源商业友好:采用 Apache-2.0 许可,允许免费商用,开发者可自由修改模型。
- 离线部署:首次下载权重后即可完全离线运行,保障数据隐私。
这些特点使其成为资源受限环境下语音合成的理想选择。
本答案来源于文章《KittenTTS:轻量级文本转语音模型》