Quais são os principais recursos do KittenTTS?

2025-08-14

439

Link diretoVisualização móvel

O KittenTTS é um modelo de conversão de texto em fala (TTS) leve e eficiente com os seguintes recursos principais:

pegada ultrapequenaO modelo ocupa menos de 25 MB de espaço de armazenamento e tem cerca de 15 milhões de parâmetros, o que é muito menor do que o modelo TTS tradicional.
operação com poucos recursosA versão mais recente da GPU é a versão mais recente da CPU, que é executada com eficiência na CPU sem suporte de GPU, o que a torna ideal para dispositivos incorporados e cenários de computação de ponta.
Geração rápidaTeste de áudio: Os testes mostram que leva apenas cerca de 19 segundos para gerar 26 segundos de áudio em um Mac M1.
Código aberto favorável aos negóciosSob a licença Apache-2.0, o uso comercial gratuito é permitido e os desenvolvedores podem modificar o modelo.
Implementação off-lineO sistema pode ser executado completamente off-line após o primeiro download dos pesos, garantindo a privacidade dos dados.

Esses recursos o tornam ideal para a síntese de fala em ambientes com recursos limitados.

Ferramenta de IA da estação de consulta rápida