当前位置：首页 » AI答疑

怎样克服本地推理时的显存不足问题？

2025-08-22

732

资源优化技术方案

针对不同硬件配置提供多级解决方案：

浏览器端降级方案：
1. 修改packages/client/src/lib/config.ts中的模型配置
2. 选择量化模型如llama-3-8b-instruct-q4
桌面端优化方案：
- NVIDIA用户启用CUDA_VISIBLE_DEVICES限制GPU使用
- 添加--n-gpu-layers 20参数平衡负载
混合推理方案：
配置REMOTE_LLM_API实现冷热分流，将长上下文任务路由到云端

监控工具推荐：

使用nvtop(Linux)或GPU-Z(Windows)实时监测显存占用，配合AIRI内置的/metrics端点分析瓶颈