该项目采用KittenTTS ONNX模型作为核心技术框架,模型体积控制在25MB以内。通过优化的onnxruntime-gpu管道和I/O绑定技术实现NVIDIA CUDA加速,大幅提升语音生成效率。系统还整合了双API接口设计,既提供完整的/tts接口,又兼容OpenAI TTS API标准的/v1/audio/speech接口,使技术集成更为灵活。
Essa resposta foi extraída do artigoKitten-TTS-Server: um serviço de conversão de texto em fala leve e autoimplantávelO