Como os desenvolvedores podem personalizar um estilo de voz proprietário com base no Orpheus-TTS?

2025-08-25

1.5 K

Link diretoVisualização móvel

A personalização do estilo de voz precisa ser obtida por meio do ajuste fino do modelo, que é dividido em cinco estágios:

Preparação de dadosColeta de 300 ou mais amostras de fala do estilo desejado (recomenda-se de 10 a 30 segundos por amostra) a serem incluídas:
- Áudio WAV (taxa de amostragem de 24kHz)
- Transcrição de texto de contrapartida
- Anotação opcional de rótulo de emoção
conversão de formatoConverta os dados para o formato de conjunto de dados Hugging Face usando o notebook oficial do Colab (ID fornecido na documentação) para processamento automático:
- Normalização de texto (por exemplo, de numérico para texto)
- Extração de recursos de fala (F0, espectro mel)
- Divisão do conjunto de dados (80/10/10)
Ajuste do arquivo de configuraçãoModificação de parâmetros-chave em finetune/config.yaml:
- learning_rate: recomendado 3e-5
- batch_size: ajustado de acordo com a memória do vídeo (4 é recomendado para cartões de 12 GB)
- max_epochs: geralmente 10-15 rodadas
treinamento de preparaçãoUse a estrutura distribuída do Accelerate: Use a estrutura distribuída do Accelerate:
accelerate launch train.py
O processo de treinamento carrega automaticamente as métricas para o painel do WandB
Verificação da eficáciaEficácia: a eficácia foi avaliada pelo escore de similaridade do locutor (o coeficiente de correlação de Spearman ≥ 0,7 foi considerado satisfatório) e pelo escore de naturalidade MOS (≥ 4,0 foi considerado excelente).

Normalmente, 10 horas de treinamento com a GPU V100 produzem os resultados desejados.

Ferramenta de IA da estação de consulta rápida