MacOS LLM Controller性能优化指南
针对系统资源占用过高的问题,可实施以下优化策略:
- 硬件调整:
- 为Ollama分配更多内存:执行
export OLLAMA_MAX_MEMORY=10GB
(根据机器配置调整) - 启用GPU加速:运行
ollama run llama3.2:3b-instruct-fp16 --gpu
- 为Ollama分配更多内存:执行
- 软件配置:
- 限制并发请求:在
backend/config.py
中设置MAX_CONCURRENT_REQUESTS=1
- 使用量化模型:替换为
llama3.2:3b-instruct-q4
版本降低计算负载
- 限制并发请求:在
- 系统级优化:
- 关闭无关进程:通过活动监视器结束占用CPU/内存的应用程序
- 设置任务优先级:终端执行
renice -n -20 -p [ollama_pid]
对于开发者,建议:1)分析docker stats
监控容器资源 2)使用Instruments工具进行性能分析 3)考虑升级到M系列芯片Mac获得最佳表现。
本答案来源于文章《用语音和文字控制macOS操作的开源工具》