Principais técnicas para melhorar a similaridade dos clones de fala
As seguintes medidas podem ser tomadas para obter uma clonagem de fala de alta qualidade:
- Princípios de seleção de amostras:
- Use áudio de uma única pessoa com pronúncia clara (evite diálogos com várias pessoas)
- A duração ideal é de 5 a 10 segundos (incluindo unidades de pronúncia completas)
- Prefira amostras com um tom neutro (evite emoções exageradas)
- Esquema de otimização de parâmetros:
- aumentar adequadamente
--t_wValores dos parâmetros (recomendado 3,0-4,0) - Ao mesmo tempo, ele reduz
--p_wValor (intervalo de 0,5 a 1,2)
- aumentar adequadamente
- Suporte técnico:
- Melhore a qualidade do som com o vocoder WaveVAE integrado
- Certifique-se de usar o arquivo oficial de latentes pré-extraídas.
Se o resultado não for satisfatório, você pode tentar selecionar o melhor resultado depois de gerar várias vezes ou dividir o texto longo em frases curtas e sintetizá-las separadamente.
Essa resposta foi extraída do artigoMegaTTS3: um modelo leve para sintetizar a fala em chinês e inglêsO































