Implementação otimizada para dispositivos móveis
A implementação MLX da Kyutai, desenvolvida especialmente para dispositivos Apple, demonstra excelente adaptabilidade móvel. Com base na aceleração de hardware da estrutura MLX da Apple, o modelo STT de 1B-parâmetro conseguiu obter transcrição de fala em tempo real no iPhone 16 Pro, com latência de processamento controlada para menos de 1 segundo. Isso é atribuído ao fato de que os pesos do modelo são quantificados em um formato de 4 bits, enquanto as operações de matriz são aceleradas usando o Apple Neural Engine (ANE).
A implementação móvel oferece dois modos de operação: o modo off-line é executado inteiramente no dispositivo para proteger a privacidade do usuário; o modo on-line se conecta a um modelo maior de 2,6 bilhões na nuvem para maior precisão. Os dados de teste mostram que, no MacBook Pro com chip M2, a versão MLX é mais de três vezes mais rápida do que a implementação nativa do PyTorch, com consumo de energia 70% menor.
O kit de desenvolvimento oferece uma interface Python limpa e inclui módulos funcionais para captura de microfone em tempo real, processamento de arquivos de áudio e ditado contínuo. Esses recursos fazem do Kyutai uma das poucas soluções de código aberto disponíveis atualmente que permite o reconhecimento de fala de nível profissional em dispositivos móveis.
Essa resposta foi extraída do artigoKyutai: ferramenta de conversão de fala em texto em tempo realO































