A tecnologia de transferência de fala da Hibiki captura os recursos prosódicos da fala de origem por meio de modelos de aprendizagem profunda e os adapta de forma inteligente à saída do idioma de destino. O sistema emprega o mecanismo CFG (Classifier Free Guidance, orientação livre do classificador), que permite ao usuário ajustar a similaridade da fala por meio do parâmetro -cfg-coef (valor recomendado 3). A implementação técnica contém três inovações importantes:
- Rede de migração de recursos acústicos baseada em atenção
- Contra-treinamento para garantir a naturalidade do tom
- A técnica de dissociação de rimas separa os recursos linguísticos e fonológicos
Em comparação com a fala sintética mecanizada dos sistemas de tradução tradicionais, a fala de saída do Hibiki mantém o ritmo, o sotaque e outros recursos suprassegmentais da fala de origem, e a pontuação de naturalidade do MOS é aprimorada em 37%. Esse recurso é especialmente adequado para dublagem de filmes e TV, redes sociais de voz e outros cenários sensíveis à qualidade da voz.
Essa resposta foi extraída do artigoHibiki: um modelo de tradução de fala em tempo real, tradução de fluxo contínuo que preserva as características da voz originalO































