vLLM服务化部署方案
针对多GPU场景的核心解决策略:
- 硬件准备阶段:
- 使用
nvidia-smi
确认各GPU空闲状态 - 通过
export CUDA_VISIBLE_DEVICES=0,1
指定可用设备
- 使用
- 服务启动命令:
vllm serve /model/路径 --tensor-parallel-size 2 --max-model-len 59968 --port 8000
关键参数说明:
- tensor-parallel-size:应与实际GPU数量一致
- max-model-len:根据模型规模调整(32B模型建议≥59k)
- 应急处理:
- 出现OOM错误时,降低sample_size值
- 添加
--enforce-eager
参数缓解显存碎片问题 - 监控工具推荐:gpustat或nvtop
该方案在2*A100环境下可稳定支持32B模型的实时推理。
本答案来源于文章《TPO-LLM-WebUI:输入问题即可实时训练模型输出结果的AI框架》