Inovações de engenharia em síntese de fala emocional
O CosyVoice realiza o controle de emoções em tempo real com base em etiquetas simbólicas pela primeira vez no campo da síntese de fala, e seu módulo Tokenizer predefine 8 tipos de etiquetas paralinguísticas, como [riso][choro][pausa=200ms], e suporta o ajuste de rima com precisão de 50ms. O treinamento adverso condicional multinível é usado no esquema técnico:
- Características subjacentesModelagem de rimas emocionais usando a rede de previsão de pitch-contour
- Controle de nível médioMigração de emoções entre idiomas por meio de sinais de prosódia
- aplicativo de camada superiorInterfaces abertas para controle de nível semântico, como [style=happy]
Os dados empíricos mostram que adicionar a tag [riso] pode melhorar a pontuação de agradabilidade da fala sintetizada em 42%, e o erro de marcação de pausa é menor que ±10ms. Esse recurso foi aplicado ao sistema de diálogo NPC de jogos, o que reduz o custo de anotação em 90% em comparação com o esquema tradicional de síntese de fala afetiva.
Essa resposta foi extraída do artigoCosyVoice: ferramenta de geração e clonagem multilíngue de código aberto AliO