O Hibiki é um sistema inovador de tradução de fala desenvolvido pela Kyutai Labs, que adota a mais avançada arquitetura de processamento de fluxo para realizar a tradução de fala em tempo real. Sua principal inovação tecnológica está no mecanismo de processamento paralelo de vários fluxos, que pode analisar simultaneamente o fluxo de entrada da fala e gerar a fala no idioma de destino, um projeto que supera o problema de latência da tradução off-line tradicional. Esse design supera o problema de latência da tradução off-line tradicional. O sistema garante a precisão do alinhamento entre os recursos de fala e o texto por meio de treinamento supervisionado e mantém a saída de alta qualidade por meio da tecnologia de geração de dados sintéticos, mesmo quando os dados reais são limitados.
As principais inovações incluem:
- Uma abordagem fracamente supervisionada para correspondência em nível de palavra usando alinhamento contextual
- Síntese de fala direcionada usando técnicas de controle de voz
- Manutenção da naturalidade rítmica por meio da inserção de silêncios
Comparado a produtos similares, o Hibiki estabelece novos padrões de referência do setor em tempo real e naturalidade da fala, especialmente para reuniões de negócios, colaboração internacional e outros cenários que exigem um desempenho rigoroso em tempo real.
Essa resposta foi extraída do artigoHibiki: um modelo de tradução de fala em tempo real, tradução de fluxo contínuo que preserva as características da voz originalO




























