O Kitten-TTS-Server apresenta vários aprimoramentos do modelo KittenTTS original:
- Interface UI da WebOferece uma interface de navegador intuitiva que suporta entrada de texto, seleção de voz, ajuste da taxa de fala e visualização da forma de onda em tempo real.
- Processamento de textos longosAudiolivros completos podem ser gerados por meio de quebra inteligente de frases e tecnologia de emenda de áudio
- Aceleração de GPUAceleração NVIDIA CUDA com onnxruntime-gpu e ligações de E/S para melhorar significativamente as velocidades de geração
- Suporte à APIInterface /tts: fornece interfaces padrão /tts e interfaces /v1/audio/fala compatíveis com OpenAI.
- Simplificação da implantaçãoSuporte a implantações em contêineres do Docker, com 8 vozes predefinidas integradas (4 masculinas e 4 femininas) e configuração gerenciada por meio de um único arquivo config.yaml
Essa resposta foi extraída do artigoKitten-TTS-Server: um serviço de conversão de texto em fala leve e autoimplantávelO