A tecnologia de clonagem de voz usada pelo WeClone é excelente em termos de fidelidade de voz, exigindo pouco mais de 5 segundos de amostras de voz do usuário para gerar clones de voz com uma similaridade de até 951 TP3T. Essa tecnologia de síntese de voz de alta qualidade não apenas preserva as características tonais exclusivas do usuário, mas também capta nuances como entonação e emoção.
Para a implementação técnica, o projeto usa um modelo paramétrico de 0,5B projetado para clonagem de voz. Os usuários só precisam colocar a mensagem de voz gravada do WeChat na pasta designada, e a voz altamente simulada pode ser gerada após o processamento do sistema. Todo o processo é simples e eficiente, sem a necessidade de processos complexos de aquisição e rotulagem de voz.
Esse efeito de clonagem de som de alta precisão permite que o sósia digital conduza interações de voz na plataforma WeChat de forma mais natural e crível, aumentando consideravelmente o realismo da experiência do usuário.
Essa resposta foi extraída do artigoWeClone: treinamento de doppelgangers digitais com registros de bate-papo e vozes do WeChatO






























