Das Repository unterstützt die schnelle Bereitstellung von Modellen über vLLM und Ollama:
- vLLM-Bereitstellung::
- So installieren Sie vLLM: Führen Sie
uv pip install --pre vllm==0.10.1+gptoss --extra-index-url https://wheels.vllm.ai/gpt-oss/
. - Starten Sie den Server: Ausführen
vllm serve openai/gpt-oss-20b
und bietet OpenAI-kompatible API-Dienste an.
- So installieren Sie vLLM: Führen Sie
- Ollama-Einsatz::
- Pull-Modell: Lauf
ollama pull gpt-oss:20b
Laden Sie das Modell herunter. - Start-up-Modell: Umsetzung
ollama run gpt-oss:20b
Modelle, die auf Hardware der Verbraucherklasse laufen.
- Pull-Modell: Lauf
Diese beiden Ansätze eignen sich für unterschiedliche Szenarien. vLLM ist für die API-Bereitstellung in Produktionsumgebungen geeignet, während Ollama für lokale Tests und Entwicklung geeignet ist.
Diese Antwort stammt aus dem ArtikelSammlung von Skripten und Tutorials zur Feinabstimmung von OpenAI GPT OSS ModellenDie