A velocidade da geração de fala pode ser otimizada em dispositivos sem uma placa de vídeo NVIDIA das seguintes maneiras:
- Prefira modelos levesO modelo de núcleo do Kitten-TTS tem apenas 25 MB e a configuração padrão é otimizada para a CPU.
- Configuração razoável dos parâmetros de fragmentaçãoQuando estiver processando texto longo, recomenda-se que o tamanho do bloco seja ajustado para 300 a 500 caracteres para reduzir a pressão de um único processamento.
- Desativar a exibição da forma de onda em tempo real: Definido em config.yaml
ui.show_waveform: false
Reduz a carga da CPU - Implementação com o Docker: Uso
docker-compose-cpu.yml
Configurações otimizadas predefinidas, incluindo parâmetros de gerenciamento de memória - Atualização da base de hardwareRecomendamos o uso de uma CPU compatível com o conjunto de instruções AVX, o que pode aumentar a velocidade de processamento em cerca de 40%.
Com esses ajustes, é possível obter uma taxa de geração estável de cerca de 500 palavras por minuto, mesmo em dispositivos incorporados, como o Raspberry Pi.
Essa resposta foi extraída do artigoKitten-TTS-Server: um serviço de conversão de texto em fala leve e autoimplantávelO