Observação sobre o uso do KittenTTS: 1) Requer ambiente de tempo de execução Python 3.6+; 2) O primeiro uso requer conexão com a Internet para fazer download de aproximadamente 25 MB de pesos do modelo (é possível o tempo de execução off-line subsequente); 3) Atualmente, o foco principal está na otimização da geração de fala em inglês, com suporte limitado para outros idiomas; 4) Os ajustes de estilo de fala precisam ser feitos por meio da predefiniçãovoice
implementação de parâmetros; e 5) embora a pontuação seja suportada para influenciar o ritmo da fala, o controle de entonação refinado não é fornecido. Recomenda-se que essas restrições sejam avaliadas com base em cenários de requisitos específicos.
Essa resposta foi extraída do artigoKittenTTS: um modelo leve de conversão de texto em falaO