Processo de personalização de voz personalizado
O Muyan-TTS alcança a geração de fala personalizada por meio do modelo SFT (Supervised Fine-Tuning), que consiste principalmente nas seguintes etapas:
- Preparação de dadosColeta de pelo menos 30 minutos de dados de voz nítidos (em formato WAV) do alto-falante alvo, taxa de amostragem recomendada de 16 kHz, mono
- Pré-processamento de dadosTranscrição de fala usando as ferramentas integradas Whisper e FunASR para gerar conjuntos de dados estruturados
- Modelagem do ajuste finoModificação
training/sft.yamlConfigure o arquivo e executetrain.shtreinamento de preparação - integração de pesos: o modelo básico será
sovits.pthCopie para o diretório do novo modelo para manter a consistência do decodificador
Requisitos de qualidade de dados
- Evite ruídos de fundo e distorção de áudio
- Consistência no estilo de voz (por exemplo, cenários de podcasting sugerem um estilo de fala formal)
- A precisão do texto da transcrição precisa ser >95%
Parâmetros típicos de treinamento
Um modelo personalizado utilizável pode ser obtido treinando por 1 hora (~1000 etapas) com uma única placa A100 na configuração básica. Taxa de aprendizado recomendada 3e-5, tamanho do lote 8.
Essa resposta foi extraída do artigoMuyan-TTS: treinamento e síntese de fala em podcasts personalizadosO































