Cenários de implantação localizada
适用于Llama/Mistral等开源大模型部署,需配置NVIDIA GPU环境:
- Requisitos de hardware:至少24GB显存(Llama3-70B需2×A100)
- ativação do serviço:通过vLLM的
serve
命令加载模型 - ajuste de parâmetros:需设置
tensor-parallel-size
等并行参数
Principais etapas de configuração
- 设置CUDA设备可见性:
export CUDA_VISIBLE_DEVICES=0,1
- 指定HuggingFace缓存路径
- 启动服务时限制最大上下文长度
- 设置GPU内存利用率阈值(0.9-0.95)
Dicas de otimização de desempenho
- 离线批处理模式可提升3倍索引速度
- fazer uso de
--skip_graph
跳过初始图谱构建 - adaptar
gpu-memory-utilization
防止OOM
Essa resposta foi extraída do artigoHippoRAG: uma estrutura de recuperação de conhecimento multihop baseada em memória de longo prazoO