Programa de otimização de clonagem de voz
Para obter uma similaridade sonora acima de 95%, três dimensões precisam ser otimizadas:
- qualidade da amostraEscolha de 5 a 10 segundos de voz do WeChat sem ruído de fundo e recomendamos o uso da função de gravação do próprio sistema para fazer o dump. Evite incluir: 1) música de fundo 2) diálogo entre várias pessoas 3) ruído atual
- parametrização: Superior em xcodec_config.json
hop_length
para 256 enquanto define oremove_silence=True
Extração aprimorada de recursos - Aprimoramento de dadosProcessamento de pitch não variável de velocidade variável usando a ferramenta de áudio sox (comando:
sox input.wav output.wav tempo 0.9
), gerando várias versões de amostras de treinamento
As técnicas avançadas incluem: 1) rotular símbolos de rimas de texto; 2) adicionar mutações de 10 ms; 3) usar o NSF-HiFiGAN como um vocodificador de back-end. Os testes podem ser comparados com a métrica de similaridade espectral mel (mel-CDTW)
Essa resposta foi extraída do artigoWeClone: treinamento de doppelgangers digitais com registros de bate-papo e vozes do WeChatO