Einführung von Technologieprogrammen auf Produktionsebene
Die folgenden beiden Optionen werden für hochverfügbare Bereitstellungen empfohlen:
- vLLM-Server::
- Installieren Sie die spezielle Version (
uv pip install --pre vllm==0.10.1+gptoss
) - Starten Sie den API-Dienst (
vllm serve openai/gpt-oss-120b --tensor-parallel-size 4
) - Konfigurieren Sie den Nginx-Reverse-Proxy und
pm2
Prozessüberwachung
- Installieren Sie die spezielle Version (
- Kubernetes-Programm::
- Erstellen eines Docker-Images (siehe Repository)
Dockerfile.gpu
) - aufstellen
resources.limits.nvidia.com/gpu: 2
GPU-Anforderungen deklarieren - passieren (eine Rechnung oder Inspektion etc.)
HorizontalPodAutoscaler
Automatische Kapazitätserweiterung und -verringerung
- Erstellen eines Docker-Images (siehe Repository)
Die wichtigsten Optimierungspunkte sind:
1. aktivieren--quantization=mxfp4
Geringerer Speicherbedarf der 50% GPU
2. einstellungen--max-num-seqs=128
Verbessern Sie die Fähigkeiten zur gleichzeitigen Verarbeitung
3. empfohlene Verwendung zur ÜberwachungvLLM PrometheusExporter
Erfassung von QPS- und Latenzmetriken
Diese Antwort stammt aus dem ArtikelSammlung von Skripten und Tutorials zur Feinabstimmung von OpenAI GPT OSS ModellenDie