O projeto adota o modelo KittenTTS ONNX como a estrutura de tecnologia principal, e o tamanho do modelo é controlado em 25 MB. A aceleração NVIDIA CUDA é obtida por meio do pipeline onnxruntime-gpu otimizado e da tecnologia de vinculação de E/S, o que melhora significativamente a eficiência da geração de fala. O sistema também integra um design de interface de API dupla, fornecendo uma interface /tts completa e compatibilidade com a interface OpenAI TTS API padrão /v1/audio/fala, tornando a integração de tecnologia mais flexível.
Essa resposta foi extraída do artigoKitten-TTS-Server: um serviço de conversão de texto em fala leve e autoimplantávelO

































