Análise do problema
A síntese de dialeto sofre de dois problemas principais: fonemas ausentes e dissonância métrica. O CosyVoice 2.0 reduz a taxa de erros de pronúncia em 30-50% com o seguinte esquema.
prescrição
- Uso do modo de comando DialectTipo de dialeto: Especifique explicitamente o tipo de dialeto:
'用四川话说这句话'
- Conjuntos de fonemas personalizados: em
config.yaml
Fonemas específicos do dialeto central estendido, como a nasal gengival-braquial do sichuanês ȵ - Aprimoramento de dadosCorpus: Uma mistura de corpus padrão e vernáculo é usada para treinamento, com uma proporção recomendada de 4:1.
Etapas de implementação
1. preferênciasCosyVoice2-0.5B
modelo básico
2. coleta de pelo menos 2 horas de corpus limpo nos dialetos-alvo
3. ajuste fino das configurações de tempo--dialect_weight=0.3
parâmetros
Verificação da eficácia
Usando o método de teste MUSHRA, a pontuação MOS de naturalidade da síntese de Sichuanese foi melhorada de 4,2 para 5,1, atingindo o padrão comercial.
Essa resposta foi extraída do artigoCosyVoice: ferramenta de geração e clonagem multilíngue de código aberto AliO