资源优化技术方案
针对不同硬件配置提供多级解决方案:
- 浏览器端降级方案::
- modifications
packages/client/src/lib/config.ts
中的模型配置 - 选择量化模型如
llama-3-8b-instruct-q4
- modifications
- 桌面端优化方案::
- NVIDIA用户启用
CUDA_VISIBLE_DEVICES
限制GPU使用 - increase
--n-gpu-layers 20
参数平衡负载
- NVIDIA用户启用
- 混合推理方案::
configure
REMOTE_LLM_API
实现冷热分流,将长上下文任务路由到云端
监控工具推荐:
utilizationnvtop
(Linux)或GPU-Z
(Windows)实时监测显存占用,配合AIRI内置的/metrics
端点分析瓶颈
This answer comes from the articleAIRI: Self-hosted AI virtual companion with support for real-time voice and game interactionThe