Os seguintes requisitos de ambiente precisam ser atendidos antes da implementação:
- sistema operacionalWindows 10/11 (64 bits) ou Linux (recomendado Debian/Ubuntu)
- Python: 3.10 ou superior
- componente essencialGit (para clonagem de código), eSpeak NG (processamento de fonização de texto)
- Aceleração de GPU opcionalÉ necessário suporte para gráficos NVIDIA e CUDA; o Linux requer a instalação adicional de libsndfile1 e ffmpeg.
Observação especial: os usuários do Windows precisam reiniciar o terminal depois de instalar o eSpeak NG. sudo apt install espeak-ng
(Linux) ou instale o pacote .msi (Windows) para concluir a instalação da dependência.
Essa resposta foi extraída do artigoKitten-TTS-Server: um serviço de conversão de texto em fala leve e autoimplantávelO