Principais considerações
- restrição de idiomaNo momento, só suporta entrada em inglês; chinês ou outros idiomas precisam aguardar a expansão do próximo!
- qualidade de áudio:: O áudio de referência (ref_wav_path) sugere de 5 a 10 segundos de fala clara, evitando música de fundo.
- Normalização de textoPontuação em inglês é necessária para o texto de entrada, e recomenda-se que os números sejam convertidos em palavras em inglês.
- parametrizaçãoA temperatura (0,3-1,0) controla a criatividade e a velocidade (0,5-2,0) ajusta a velocidade da fala.
Dicas de otimização da eficácia
- Design imediatoTexto do prompt: Prompt_text deve refletir o estilo de voz desejado (por exemplo, "tom de podcast profissional").
- Geração de segmentosRecomendamos que textos mais longos sejam emendados por geração de parágrafos para evitar dissonância rítmica.
- pós-processamentoRedução de ruído e equalização de volume com ferramentas como o Audacity.
- Aprimoramento de dadosUso de perturbação de volume, alongamento de tempo e outras técnicas para aumentar a robustez durante o ajuste fino
Os testes mostraram que o melhor equilíbrio da naturalidade da fala pode ser obtido quando combinado com 1 a 2 minutos de áudio de referência e temperatura de configuração = 0,7. Ao encontrar erros de pronúncia, a entrada de texto pode ser ajustada por meio da rotulagem pinyin ou da marcação de acento.
Essa resposta foi extraída do artigoMuyan-TTS: treinamento e síntese de fala em podcasts personalizadosO































