Posição atual:fig. início " Respostas da IA

Como funciona o recurso de personalização de voz personalizada do Muyan-TTS? Quais dados eu preciso preparar?

2025-08-23

1.7 K

Link diretoVisualização móvel

Processo de personalização de voz personalizado

O Muyan-TTS alcança a geração de fala personalizada por meio do modelo SFT (Supervised Fine-Tuning), que consiste principalmente nas seguintes etapas:

Preparação de dadosColeta de pelo menos 30 minutos de dados de voz nítidos (em formato WAV) do alto-falante alvo, taxa de amostragem recomendada de 16 kHz, mono
Pré-processamento de dadosTranscrição de fala usando as ferramentas integradas Whisper e FunASR para gerar conjuntos de dados estruturados
Modelagem do ajuste finoModificaçãotraining/sft.yamlConfigure o arquivo e executetrain.shtreinamento de preparação
integração de pesos: o modelo básico serásovits.pthCopie para o diretório do novo modelo para manter a consistência do decodificador

Requisitos de qualidade de dados

Evite ruídos de fundo e distorção de áudio
Consistência no estilo de voz (por exemplo, cenários de podcasting sugerem um estilo de fala formal)
A precisão do texto da transcrição precisa ser >95%

Parâmetros típicos de treinamento

Um modelo personalizado utilizável pode ser obtido treinando por 1 hora (~1000 etapas) com uma única placa A100 na configuração básica. Taxa de aprendizado recomendada 3e-5, tamanho do lote 8.

Essa resposta foi extraída do artigoMuyan-TTS: treinamento e síntese de fala em podcasts personalizadosO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " Como funciona o recurso de personalização de voz personalizada do Muyan-TTS? Quais dados eu preciso preparar?

Como funciona o recurso de personalização de voz personalizada do Muyan-TTS? Quais dados eu preciso preparar?

Processo de personalização de voz personalizado

Requisitos de qualidade de dados

Parâmetros típicos de treinamento

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Como funciona o recurso de personalização de voz personalizada do Muyan-TTS? Quais dados eu preciso preparar?

Processo de personalização de voz personalizado

Requisitos de qualidade de dados

Parâmetros típicos de treinamento

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida