Explicação da tecnologia inovadora de clonagem de voz
O recurso de clonagem de voz do MegaTTS3 alcança três avanços tecnológicos:
- Requisitos de amostragem reduzidos de dezenas de minutos para 5 a 10 segundos para soluções tradicionais
- Suporte para migração de tons entre idiomas (amostras chinesas para gerar fala em inglês)
- Controle dinâmico da similaridade de timbre por meio do parâmetro t_w (0-3)
No nível da realização técnica, o sistema usa de forma inovadora:
- Pré-treinamento do codificador de recursos sonoros para extrair recursos vocais profundos
- Estratégias de treinamento adversarial para aprimorar a generalização tonal
- O módulo de previsão de duração baseado na atenção garante a naturalidade da rima
Os testes práticos mostraram que, no conjunto de testes LibriTTS, o sistema tem um MOS de similaridade de tons de 4,2 de 5, o que é significativamente melhor do que o Tacotron tradicional e outras arquiteturas. É importante observar que esse recurso precisa ser usado em conjunto com o arquivo de latentes pré-extraído fornecido oficialmente, que é o limite de segurança da solução técnica atual.
Essa resposta foi extraída do artigoMegaTTS3: um modelo leve para sintetizar a fala em chinês e inglêsO































