De acordo com os dados de teste da comunidade, o KittenTTS tem excelente velocidade de geração de fala. Por exemplo, leva apenas cerca de 19 segundos para gerar 26 segundos de áudio em um dispositivo Mac M1. Sua arquitetura leve (15 milhões de parâmetros) e o design otimizado para CPU proporcionam essa vantagem. Os usuários podem medir com precisão o tempo de geração por meio do código Python, e recomenda-se texto curto e pontuação simples para aumentar ainda mais a velocidade. Vale a pena observar que os pesos do modelo são armazenados em cache localmente e a geração subsequente levará menos tempo para ser carregada.
Essa resposta foi extraída do artigoKittenTTS: um modelo leve de conversão de texto em falaO