O KittenTTS oferece personalização básica do estilo de som:
- Seleção de voz predefinida: através de
voice
parâmetros (por exemplomale_clear
) Alterne entre vozes predefinidas para diferentes gêneros e tons; consulte a documentação oficial para ver as opções. - Controle de pontuaçãoEmbora não haja suporte para o ajuste direto do parâmetro de tom/velocidade da fala, o ritmo e as pausas da fala podem ser indiretamente afetados pela pontuação no texto (por exemplo, vírgulas, pontos de exclamação).
Observe que, em comparação com os modelos profissionais de TTS (por exemplo, XTTS-v2), o KittenTTS tem uma funcionalidade de controle de voz mais básica, sendo que as principais vantagens são o peso leve e a eficiência operacional.
Essa resposta foi extraída do artigoKittenTTS: um modelo leve de conversão de texto em falaO