vllm-cli内置了四种优化配置方案,针对不同使用场景进行了专门调优:
- standard:默认配置,采用vLLM推荐的智能参数,适合大多数模型和一般使用场景
- moe_optimized:专为混合专家(MoE)模型优化,调整了专家选择和路由的相关参数
- high_throughput:最大化请求吞吐量的配置,适合需要高频调用模型的场景
- low_memory:内存优化配置,自动启用FP8量化等技术,适合GPU内存有限的硬件环境
这些预设方案可以通过--profile
参数快速调用。在实际开发中,建议先尝试standard
配置,再根据具体需求选择其他优化方案或进行自定义参数调整。
本答案来源于文章《vLLM CLI:使用 vLLM 部署大语言模型的命令行工具》