O sistema de síntese de fala do vdspeak usa a arquitetura de aprendizagem profunda WaveNet para romper com a sensação mecânica da tecnologia tradicional de síntese de retalhos. Seu modelo acústico foi submetido a 2.000 horas/idioma de treinamento direcionado e é capaz de capturar as regras de pronúncia e as características de entonação de idiomas específicos. Testes práticos mostram que a pontuação MOS de naturalidade para dublagem de inglês para chinês chega a 4,2 de 5, especialmente ao lidar com terminologia profissional com uma taxa de precisão melhor do que as soluções comuns no mercado.
No nível da realização técnica, o sistema primeiro separa a impressão de voz do vídeo original para eliminar a interferência do ruído de fundo; depois, mantém a semelhança entre o timbre dublado e o falante original por meio da tecnologia de clonagem de fala entre idiomas. Para idiomas morfológicos complexos, como o espanhol, um mecanismo de atenção também é integrado para lidar com a conjugação de verbos. Casos de usuários mostram que, depois que uma instituição educacional usou sua função de dublagem em alemão, o tempo de exibição na região alemã aumentou três vezes.
Essa resposta foi extraída do artigovdspeakO