A função de clonagem de voz do MegaTTS3 é usada da seguinte forma:
procedimento
- Prepare de 5 a 10 segundos de áudio de referência nítido (recomenda-se gravar em um ambiente silencioso)
- Coloque o arquivo de áudio na pasta assets/
- Execute o comando:
CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/your_audio.wav' --input_text "要合成的文本" --output_dir ./gen - Obtenha o arquivo de resultado output.wav no diretório . /gen para obter o arquivo de resultado output.wav
Principais pontos técnicos
- O sistema extrai automaticamente as latências acústicas do áudio.
- Estabelecimento de relações de mapeamento de tons por meio de técnicas de aprendizado comparativo
- Aprimore a reprodução tonal com o treinamento de confronto
advertência
- O áudio de referência deve conter características representativas do timbre de destino
- O ruído de fundo afeta a qualidade do clone
- Para chinês e inglês, você precisará preparar referências de áudio separadas para cada idioma.
- A clonagem em tempo real não é suportada atualmente e requer uma fase de pré-processamento
Essa resposta foi extraída do artigoMegaTTS3: um modelo leve para sintetizar a fala em chinês e inglêsO































