Einführung von Technologieprogrammen auf Produktionsebene
Die folgenden beiden Optionen werden für hochverfügbare Bereitstellungen empfohlen:
- vLLM-Server::
- Installieren Sie die spezielle Version (
uv pip install --pre vllm==0.10.1+gptoss) - Starten Sie den API-Dienst (
vllm serve openai/gpt-oss-120b --tensor-parallel-size 4) - Konfigurieren Sie den Nginx-Reverse-Proxy und
pm2Prozessüberwachung
- Installieren Sie die spezielle Version (
- Kubernetes-Programm::
- Erstellen eines Docker-Images (siehe Repository)
Dockerfile.gpu) - aufstellen
resources.limits.nvidia.com/gpu: 2GPU-Anforderungen deklarieren - passieren (eine Rechnung oder Inspektion etc.)
HorizontalPodAutoscalerAutomatische Kapazitätserweiterung und -verringerung
- Erstellen eines Docker-Images (siehe Repository)
Die wichtigsten Optimierungspunkte sind:
1. aktivieren--quantization=mxfp4Geringerer Speicherbedarf der 50% GPU
2. einstellungen--max-num-seqs=128Verbessern Sie die Fähigkeiten zur gleichzeitigen Verarbeitung
3. empfohlene Verwendung zur ÜberwachungvLLM PrometheusExporterErfassung von QPS- und Latenzmetriken
Diese Antwort stammt aus dem ArtikelSammlung von Skripten und Tutorials zur Feinabstimmung von OpenAI GPT OSS ModellenDie




























