Co-otimização de hardware e IA
A adaptação profunda da IA no dispositivo com os chips da série M da Apple cria uma nova referência para a execução de modelos grandes em dispositivos móveis. Seus benefícios de desempenho são especificamente demonstrados:
- Motor de rede neural Otimização proprietáriaOtimização do conjunto de instruções para a NPU de 16 núcleos da Apple Silicon permite a inferência do modelo Llama 8B a 23 tokens/s
- Integração aritmética entre dispositivosO chip M1 Max fornece 40 TOPS adicionais de potência de computação para o iPhone por meio do recurso Mac Remote Connection, suportando a execução de modelos de escala de parâmetros de 16B.
- Aceleração da transcrição de voz em tempo realDispositivo de chip M2: atinge transcrição de latência ultrabaixa de 98 ms, três vezes mais rápida do que a arquitetura x86 tradicional
Os dados do teste de desempenho mostram que, no MacBook Pro com chip M3, as tarefas de análise de documentos levam 1/5 do tempo do modelo Intel. Esse co-design de hardware torna os dispositivos de consumo capazes de lidar também com cargas de trabalho profissionais de IA.
Essa resposta foi extraída do artigoOn Device AI: ferramenta de transcrição de voz e bate-papo com IA para execução nativa do iPhoneO
































