技術プログラムの生産レベルでの展開
高可用性の導入には、以下の2つのオプションを推奨する:
- vLLMサーバー::
- 専用バージョン (
uv pip install --pre vllm==0.10.1+gptoss
) - APIサービスを開始する
vllm serve openai/gpt-oss-120b --tensor-parallel-size 4
) - Nginxのリバースプロキシと
pm2
プロセスモニタリング
- 専用バージョン (
- Kubernetesプログラム::
- Dockerイメージのビルド(リポジトリ参照)
Dockerfile.gpu
) - セットアップ
resources.limits.nvidia.com/gpu: 2
GPU要件を宣言する - とおす
HorizontalPodAutoscaler
容量の自動拡大・縮小
- Dockerイメージのビルド(リポジトリ参照)
主な最適化ポイントは以下の通り:
1.有効化--quantization=mxfp4
50% GPUメモリのフットプリントを削減
2.設定--max-num-seqs=128
同時処理能力の強化
3.モニタリングの推奨用途vLLM PrometheusExporter
QPSおよびレイテンシ・メトリクスの収集
この答えは記事から得たものである。OpenAI GPT OSSモデルを微調整するためのスクリプトとチュートリアル集について