A função de clonagem de fala é implementada pelo aprendizado de amostra zero nas seguintes etapas:
- Preparação de amostras de áudioForneça pelo menos 10 segundos de áudio nítido para cada palestrante (por exemplo, o
speaker1.wav). - Caminho de configuração: em
config.yamlEspecifique o caminho do arquivo de áudio no campo - Execute o script de clonagem: Implementação
python clone_voice.pySe você quiser usar o texto do diálogo (por exemplodialogue.txt) e diretórios de saída.
O modelo extrai automaticamente os recursos de timbre de destino e distingue o locutor ao gerar o diálogo. Observe que a pontuação DNSMOS do áudio de entrada precisa ser ≥2,8 para garantir a qualidade, e as palavras de entonação curta (por exemplo, "hum") podem precisar ser rotuladas manualmente com o alto-falante para aumentar a precisão.
Essa resposta foi extraída do artigoMOSS-TTSD: ferramenta de geração de fala de código aberto para diálogo bilíngueO




























