A personalização do estilo de voz precisa ser obtida por meio do ajuste fino do modelo, que é dividido em cinco estágios:
- Preparação de dadosColeta de 300 ou mais amostras de fala do estilo desejado (recomenda-se de 10 a 30 segundos por amostra) a serem incluídas:
- Áudio WAV (taxa de amostragem de 24kHz)
- Transcrição de texto de contrapartida
- Anotação opcional de rótulo de emoção
- conversão de formatoConverta os dados para o formato de conjunto de dados Hugging Face usando o notebook oficial do Colab (ID fornecido na documentação) para processamento automático:
- Normalização de texto (por exemplo, de numérico para texto)
- Extração de recursos de fala (F0, espectro mel)
- Divisão do conjunto de dados (80/10/10)
- Ajuste do arquivo de configuraçãoModificação de parâmetros-chave em finetune/config.yaml:
- learning_rate: recomendado 3e-5
- batch_size: ajustado de acordo com a memória do vídeo (4 é recomendado para cartões de 12 GB)
- max_epochs: geralmente 10-15 rodadas
- treinamento de preparaçãoUse a estrutura distribuída do Accelerate: Use a estrutura distribuída do Accelerate:
accelerate launch train.py
O processo de treinamento carrega automaticamente as métricas para o painel do WandB - Verificação da eficáciaEficácia: a eficácia foi avaliada pelo escore de similaridade do locutor (o coeficiente de correlação de Spearman ≥ 0,7 foi considerado satisfatório) e pelo escore de naturalidade MOS (≥ 4,0 foi considerado excelente).
Normalmente, 10 horas de treinamento com a GPU V100 produzem os resultados desejados.
Essa resposta foi extraída do artigoOrpheus-TTS: uma ferramenta de conversão de texto em fala para gerar fala natural em chinêsO
































