Guia de otimização de desempenho do controlador do macOS LLM
As seguintes estratégias de otimização podem ser implementadas para resolver o problema do alto uso de recursos do sistema:
- Ajuste de hardware::
- Alocando mais memória para o Ollama: Execute o comando
export OLLAMA_MAX_MEMORY=10GB(ajustado à configuração da máquina) - Ativar a aceleração da GPU: executar
ollama run llama3.2:3b-instruct-fp16 --gpu
- Alocando mais memória para o Ollama: Execute o comando
- Configuração de software::
- Limite de solicitações simultâneas: em
backend/config.pyconfigurarMAX_CONCURRENT_REQUESTS=1 - Uso de modelagem quantitativa: substituir por
llama3.2:3b-instruct-q4Versão reduz a carga de computação
- Limite de solicitações simultâneas: em
- Otimização em nível de sistema::
- Encerrar processos estranhos: encerrar aplicativos que consomem muita CPU/memória por meio do monitor de atividade
- Definição da prioridade da tarefa: execução do terminal
renice -n -20 -p [ollama_pid]
Para os desenvolvedores, recomenda-se 1) analisardocker statsMonitore os recursos do contêiner 2) Use as ferramentas do Instruments para análise de desempenho 3) Considere a possibilidade de fazer upgrade para um Mac com chip série M para obter o melhor desempenho.
Essa resposta foi extraída do artigoFerramenta de código aberto para controlar operações do macOS com voz e textoO































