Otimização da eficiência energética da transcrição de voz em dispositivos móveis
A implementação do MLX da Kyutai oferece as seguintes otimizações para as necessidades específicas de dispositivos móveis, como o iPhone:
- Utilização acelerada de hardwareEstrutura MLX: a estrutura MLX se integra profundamente ao Apple Neural Engine (ANE), economizando 60% de energia em comparação com o modo CPU, recomendado para modelos de iPhone 12 e superiores.
- Técnicas de modelagem e quantificação: Uso
--quantizeModelo de quantificação de 8 bits carregado de parâmetros com redução de 501 TP3T no espaço de memória e perda de precisão <21 TP3T - Ajuste dinâmico do consumo de energia: Configurações
--power-saveO modo reduz automaticamente a taxa de amostragem (16kHz → 8kHz) do período inativo - Recomendações de configuração de práticas::
Transcrição contínua:python -m moshi_mlx.run_inference --hf-repo kyutai/stt-1b-en_fr-mlx --mic --quantize --batch-size 4
Transcrição única:--single-utteranceO modo libera recursos imediatamente
Os testes mostraram que o iPhone 15 Pro pode durar até 5 horas com uma carga completa, com oAVAudioSession(usado em uma expressão nominal).ambientO modo pode aprimorar ainda mais a linha 20%.
Essa resposta foi extraída do artigoKyutai: ferramenta de conversão de fala em texto em tempo realO




























