O aprimoramento da qualidade da fala requer dados de entrada e configuração do modelo:
- Qualidade do áudio de entradaVerifique se o áudio de amostra para clonagem de voz tem uma pontuação DNSMOS ≥ 2,8 e recomenda-se que seja capturado usando equipamento de gravação profissional para evitar ruído ambiente
- Especificações de rotulagem de textoO texto do diálogo precisa ser claramente identificado com o orador (por exemplo
Speaker1:), rótulos descritivos devem ser adicionados para inflexões, como[笑声]talvez[停顿] - parametrização: em
config.yamlmédio e altoprosody_scale(fator de escala métrica) enoise_scaleParâmetro (aleatoriedade do ruído), intervalo recomendado 0,8-1,2 - Ajuste fino do modeloAjuste fino de LoRA usando dados específicos do domínio (por exemplo, conversas médicas, gravações de atendimento ao cliente) pode melhorar significativamente o desempenho de cenários profissionais
Essa resposta foi extraída do artigoMOSS-TTSD: ferramenta de geração de fala de código aberto para diálogo bilíngueO































