O sistema de clonagem de voz da AIVocal baseia-se em uma arquitetura híbrida de aprendizado de migração e redes generativas adversárias (GAN), que é capaz de concluir a captura rápida de recursos de voz em condições de amostras muito curtas. Quando um usuário faz o upload de uma amostra de voz nítida de 10 a 30 segundos, o sistema primeiro extrai recursos de impressão de voz de 256 dimensões, como frequência fundamental e picos de ressonância, por meio do algoritmo P-STOI e, em seguida, gera fala sintética com os mesmos recursos por meio do modelo WaveRNN condicional.
Os testes técnicos mostram que, no conjunto de dados públicos VCTK, o sistema requer apenas 15 segundos de amostras para obter uma similaridade de alto-falante (pontuação SVES) de 83,2%, o que excede o efeito do método GMM-UBM tradicional que requer 5 minutos de amostras. Em aplicações práticas, os usuários podem usar essa função para obter: personalização da voz do assistente virtual pessoal, geração de dublagem de personagens de audiolivros, produção de anúncios comerciais localizados e outros cenários.
É importante observar que a plataforma emprega tecnologia de marca d'água de voz em tempo real e o uso de restrições de protocolo para evitar efetivamente o abuso de falsificação profunda. Cada voz clonada é incorporada com uma marca d'água inaudível quando é gerada, que pode ser rastreada até a conta geradora em cenários forenses, tornando o recurso compatível com os requisitos de transparência da Lei de IA da UE.
Essa resposta foi extraída do artigoAIVocal: uma ferramenta de IA gratuita para gerar podcasts e processar áudioO





























