Para obter uma conversão de texto em fala longa e contínua, ela precisa ser configurada das três maneiras a seguir:
- Ativar quebras de frase inteligentesVerifique se a interface da Web
Split text into chunks
A opção está marcada - Ajuste do parâmetro de parada: Definido em config.yaml
silence_duration: 0.3
(em segundos) Adicione uma pausa natural - Otimização da estratégia de fragmentaçãoRecomenda-se a divisão automática em blocos de acordo com a pontuação, em conjunto com o
max_chars: 450
Os parâmetros limitam o comprimento de um único segmento
Para a produção profissional de audiolivros, não há problema:
- Inserção manual na fonte de texto
|
Símbolo para especificar a posição de chunking - fazer uso de
<break/>
Tags SSML para controlar durações específicas de pausa
O intervalo entre os clipes adjacentes após o processamento será controlado em 200-400 milissegundos, alcançando uma suavidade com qualidade de transmissão.
Essa resposta foi extraída do artigoKitten-TTS-Server: um serviço de conversão de texto em fala leve e autoimplantávelO