A função de clonagem de fala do WeClone é implementada com base em um modelo acústico com parâmetros de 0,5B, com requisitos e efeitos específicos:
- Requisitos de hardwareGPUs habilitadas para CUDA são necessárias, e recomenda-se 6 GB ou mais de memória de vídeo.
- requisito de entradaMensagens de voz claras do WeChat: no mínimo 5 segundos (recomenda-se selecionar amostras com um tom de voz típico e pouco ruído de fundo)
- realizaçãoA similaridade espectral entre a voz gerada e a amostra original é de até 95%, o que preserva o fluxo e refluxo da entonação e as características emocionais da voz original.
- Processo de uso: coloque os arquivos de voz na pasta WeClone-audio → instale a dependência xcodec → execute o script de clonagem de voz
Observação técnica: Esse recurso usa a mais recente tecnologia de quantificação de vetores para capturar melhor os detalhes tonais em comparação com o TTS tradicional. Testes reais mostram que o efeito de clonagem de uma amostra de 10 segundos está próximo do nível de programas comerciais profissionais.
Essa resposta foi extraída do artigoWeClone: treinamento de doppelgangers digitais com registros de bate-papo e vozes do WeChatO





























