O Hibiki obtém recursos superiores de implementação no lado final por meio de técnicas de compactação de modelos e um tempo de execução dedicado. O sistema está disponível em uma versão simplificada com parâmetros 1B e funciona sem problemas com a estrutura MLX em dispositivos móveis, como o iPhone 16 Pro. As opções de implementação incluem:
- Estrutura de otimização móvel MLX-Swift
- Suporte à aceleração de hardware Metal/CUDA
- A tecnologia de quantificação de 8 bits reduz os requisitos computacionais
Testes empíricos mostram que o modelo 1B consome apenas 1,2 W de energia no chip A17 Pro para obter tradução contínua em tempo real. Esse recurso de computação de ponta permite que o sistema seja aplicado a cenários que não podem ser cobertos pela tradução tradicional baseada em nuvem, como operações de campo em ambientes sem rede e reuniões confidenciais, elevando a usabilidade da tradução de voz de nível profissional a novos patamares.
Essa resposta foi extraída do artigoHibiki: um modelo de tradução de fala em tempo real, tradução de fluxo contínuo que preserva as características da voz originalO































