A eficiência da geração pode ser significativamente melhorada.
- controle de texto:: Reduza o tamanho do texto e evite pontuação complexa sempre que possível
- Configuração do ambienteUtiliza uma CPU de maior desempenho (os testes mostram que o chip M1 leva apenas 19 segundos para gerar 26 segundos de áudio).
- Otimização do pré-processamentoModelo de pré-carregamento e pesos do cache (armazenados localmente após a primeira execução)
- seleção de voz:: Seleção de estilos de voz predefinidos mais simples
Os testes mostraram que a geração de textos curtos de 10 palavras é cerca de três vezes mais rápida do que a de textos longos de 50 palavras no mesmo ambiente de hardware. Os desenvolvedores também podem usar o time.time()
Realize testes de velocidade para localizar gargalos de desempenho.
Essa resposta foi extraída do artigoKittenTTS: um modelo leve de conversão de texto em falaO