资源优化技术方案
针对不同硬件配置提供多级解决方案:
- 浏览器端降级方案::
- 修正
packages/client/src/lib/config.ts
中的模型配置 - 选择量化模型如
llama-3-8b-instruct-q4
- 修正
- 桌面端优化方案::
- NVIDIA用户启用
CUDA_VISIBLE_DEVICES
限制GPU使用 - 増加
--n-gpu-layers 20
参数平衡负载
- NVIDIA用户启用
- 混合推理方案::
コンフィグ
REMOTE_LLM_API
实现冷热分流,将长上下文任务路由到云端
监控工具推荐:
利用するnvtop
(Linux)或GPU-Z
(Windows)实时监测显存占用,配合AIRI内置的/metrics
端点分析瓶颈
この答えは記事から得たものである。AIRI:リアルタイムの音声とゲームでのインタラクションをサポートする、セルフホスト型のAIバーチャルコンパニオンについて