资源优化技术方案
针对不同硬件配置提供多级解决方案:
- 浏览器端降级方案:
- 修改
packages/client/src/lib/config.ts
中的模型配置 - 选择量化模型如
llama-3-8b-instruct-q4
- 修改
- 桌面端优化方案:
- NVIDIA用户启用
CUDA_VISIBLE_DEVICES
限制GPU使用 - 添加
--n-gpu-layers 20
参数平衡负载
- NVIDIA用户启用
- 混合推理方案:
配置
REMOTE_LLM_API
实现冷热分流,将长上下文任务路由到云端
监控工具推荐:
使用nvtop
(Linux)或GPU-Z
(Windows)实时监测显存占用,配合AIRI内置的/metrics
端点分析瓶颈
本答案来源于文章《AIRI:自托管的AI虚拟伴侣,支持实时语音和游戏互动》