Posição atual:fig. início " Respostas da IA

O recurso de transferência de fala melhora significativamente a naturalidade da fala traduzida

2025-09-10

1.9 K

Link diretoVisualização móvel

A tecnologia de transferência de fala da Hibiki captura os recursos prosódicos da fala de origem por meio de modelos de aprendizagem profunda e os adapta de forma inteligente à saída do idioma de destino. O sistema emprega o mecanismo CFG (Classifier Free Guidance, orientação livre do classificador), que permite ao usuário ajustar a similaridade da fala por meio do parâmetro -cfg-coef (valor recomendado 3). A implementação técnica contém três inovações importantes:

Rede de migração de recursos acústicos baseada em atenção
Contra-treinamento para garantir a naturalidade do tom
A técnica de dissociação de rimas separa os recursos linguísticos e fonológicos

Em comparação com a fala sintética mecanizada dos sistemas de tradução tradicionais, a fala de saída do Hibiki mantém o ritmo, o sotaque e outros recursos suprassegmentais da fala de origem, e a pontuação de naturalidade do MOS é aprimorada em 37%. Esse recurso é especialmente adequado para dublagem de filmes e TV, redes sociais de voz e outros cenários sensíveis à qualidade da voz.

Essa resposta foi extraída do artigoHibiki: um modelo de tradução de fala em tempo real, tradução de fluxo contínuo que preserva as características da voz originalO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " O recurso de transferência de fala melhora significativamente a naturalidade da fala traduzida