Histórico da questão
A fala gerada pelos sistemas TTS tradicionais geralmente carece de volatilidade emocional, o que o CosyVoice resolve com um sistema de rotulagem controlado por emoções de granularidade fina.
Programas específicos de implementação
- Inserir etiquetas de sentimento padrãoInserir diretamente no texto
[laughter]
e[pause]
etc:'他突然[laughter]停下来,因为被逗笑了[laughter]'
- Usando o controle de comando: através de
inference_instruct2
O método especifica o estilo emocional geral:'用欢快的语气说这段话'
- Técnicas de aprimoramento rítmicoAtivado durante o treinamento
--use_prosody
que aumenta a naturalidade do estresse e da entonação
Técnicas avançadas
1. combinação de tags e comandos para um desempenho mais rico
2. referênciatokenizer.py
Linha 248Ver lista completa de tags
3) Para cenas de dublagem de filmes e televisão, recomenda-se que os rótulos de emoção sejam alinhados com a linha do tempo do som.
Essa resposta foi extraída do artigoCosyVoice: ferramenta de geração e clonagem multilíngue de código aberto AliO