生产级部署技术方案
高可用部署推荐以下两种方案:
- vLLM服务器:
- 安装专用版本(
uv pip install --pre vllm==0.10.1+gptoss
) - 启动API服务(
vllm serve openai/gpt-oss-120b --tensor-parallel-size 4
) - 配置Nginx反向代理和
pm2
进程守护
- 安装专用版本(
- Kubernetes方案:
- 构建Docker镜像(参考仓库
Dockerfile.gpu
) - 设置
resources.limits.nvidia.com/gpu: 2
声明GPU需求 - 通过
HorizontalPodAutoscaler
实现自动扩缩容
- 构建Docker镜像(参考仓库
关键优化点包括:
1. 启用--quantization=mxfp4
降低50%GPU内存占用
2. 设置--max-num-seqs=128
提升并发处理能力
3. 监控推荐使用vLLM PrometheusExporter
收集QPS和延迟指标
本答案来源于文章《微调OpenAI GPT OSS模型的脚本和教程集合》