显存不足的应对方案
针对显存不足问题,可采取以下应对策略:
- 使用low_memory配置:通过–profile low_memory启用内存优化方案,自动启用FP8量化等省内存技术
- 模型量化:手动指定–quantization awq/squeezellm等量化方式
- 调整模型分片:减小–tensor-parallel-size参数值(单GPU设为1)
- 卸载策略:设置–swap-space参数利用系统内存扩展
诊断步骤:当加载失败时,立即使用vllm-cli提供的日志查看器检查具体错误代码。若是OOM错误,可先用vllm-cli info检查可用显存,然后选择适当缩小模型规格或启用更强的量化方案。对于HuggingFace Hub上的模型,注意选择合适的分支(如选择4bit量化版本)。
本答案来源于文章《vLLM CLI:使用 vLLM 部署大语言模型的命令行工具》