Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

gpt-oss-recipes ist ein GitHub-Repository, das von Hugging Face verwaltet wird und sich auf die Bereitstellung von Skripten und Jupyter Notebook-Tutorials für die Verwendung von OpenAI GPT OSS-Modellen konzentriert. Das Repository enthält die neuesten Open-Source-Modelle für OpenAI gpt-oss-120b im Gesang antworten gpt-oss-20b Konfigurations- und Anwendungsbeispiele. Diese Modelle sind für ihre leistungsstarken Schlussfolgerungsmöglichkeiten und ihren effizienten Ressourcenverbrauch bekannt und eignen sich für Entwickler, die sie in Produktionsumgebungen oder auf persönlichen Geräten einsetzen. Der Code und die Dokumentation im Repository helfen den Nutzern, schnell mit der Modellinferenz, der Feinabstimmung und dem Einsatz zu beginnen, wobei alles von der Einrichtung der Umgebung bis zur Implementierung komplexer Aufgaben abgedeckt wird. Der gesamte Inhalt basiert auf der Apache 2.0-Lizenz, die die freie Nutzung und Veränderung erlaubt.

Funktionsliste

  • Angebot gpt-oss-120b im Gesang antworten gpt-oss-20b Konfigurationsskripte für Modelle, die einen schnellen Wechsel der Modellgrößen unterstützen.
  • Enthält Code zur Einrichtung der Umgebung, um virtuelle Python-Umgebungen und die Installation von Abhängigkeiten zu unterstützen.
  • Enthält Argumentationsbeispiele, die zeigen, wie das Modell verwendet wird, um Text zu erzeugen oder Werkzeugaufrufe durchzuführen.
  • Unterstützt die Feinabstimmung des Modells und enthält Beispiele für die Verarbeitung mehrsprachiger Inferenzdatensätze.
  • Bietet die gleiche Funktionalität wie Transformers, vLLM und Ollama Integrations-Tutorials für Frameworks wie z.B..
  • Unterstützt optimierte Konfigurationen für die Ausführung von Modellen auf unterschiedlicher Hardware (H100-GPUs, Consumer-Geräte).

Hilfe verwenden

Einbauverfahren

Zur Verwendung gpt-oss-recipes Skripte im Repository zu erstellen, müssen Sie zunächst das Repository klonen und die Python-Umgebung einrichten. Hier sind die detaillierten Schritte:

  1. Klon-Lager
    Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um das Repository lokal zu klonen:

    git clone https://github.com/huggingface/gpt-oss-recipes.git
    cd gpt-oss-recipes
    
  2. Erstellen einer virtuellen Umgebung
    Es wird empfohlen, eine virtuelle Umgebung mit Python 3.11 zu erstellen, um Kompatibilität zu gewährleisten. Es wird empfohlen, Folgendes zu verwenden uv Werkzeuge:

    uv venv gpt-oss --python 3.11
    source gpt-oss/bin/activate
    
  3. Installation von Abhängigkeiten
    Installieren Sie die erforderlichen Python-Pakete, einschließlich PyTorch und Transformers. Führen Sie den folgenden Befehl aus:

    uv pip install --upgrade pip
    uv pip install torch==2.8.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/test/cu128
    uv pip install -U transformers accelerate
    
  4. Installation des Triton-Kernels (optional)
    Wenn die Hardware die MXFP4-Quantisierung unterstützt (z. B. H100 oder RTX 50xx), kann der Triton-Kernel installiert werden, um die Leistung zu optimieren:

    uv pip install git+https://github.com/triton-lang/triton.git@main#subdirectory=python/triton_kernels
    

Konfigurationsmodell

Das Repository bietet zwei Modelle an:gpt-oss-120b(117B-Parameter für Hochleistungs-GPUs) und gpt-oss-20b(21B-Parameter für Consumer-Hardware). Ändern Sie in dem Skript die model_path Modelle zur Variablenauswahl. Beispiel:

model_path = "openai/gpt-oss-20b"  # 选择 20B 模型
# model_path = "openai/gpt-oss-120b"  # 选择 120B 模型

Das Skript konfiguriert die Gerätezuordnung und die Optimierungseinstellungen automatisch auf der Grundlage der Modellgröße.

logische Schlussfolgerung

Das Repository enthält einfache Beispiele für die Generierung von Text oder die Durchführung bestimmter Aufgaben. Es folgt ein Beispiel für eine Anwendung, die die gpt-oss-20b Beispiel für einen modellgenerierten Text:

  1. zeigen (eine Eintrittskarte) inference.py Datei (oder ein ähnliches Skript).
  2. Stellen Sie sicher, dass das Modell und der Splitter geladen sind:
    from transformers import AutoModelForCausalLM, AutoTokenizer
    model_id = "openai/gpt-oss-20b"
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype="auto")
    
  3. Eingabeaufforderungen eingeben und Ergebnisse generieren:
    messages = [{"role": "user", "content": "如何用 Python 写一个排序算法?"}]
    inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
    generated = model.generate(**inputs, max_new_tokens=200)
    print(tokenizer.decode(generated[0]))
    
  4. Führen Sie das Skript aus, und das Modell liefert Python-Beispielcode für den Sortieralgorithmus.

Anpassung der Inferenzparameter

Der Detaillierungsgrad der Argumentation kann durch Systemaufforderungen angepasst werden. Stellen Sie zum Beispiel eine hohe Argumentationsstufe ein:

messages = [
{"role": "system", "content": "Reasoning: high"},
{"role": "user", "content": "解释量子计算的基本原理"}
]

Höhere Inferenzstufen führen zu detaillierteren Schlussfolgerungen und sind für komplexe Probleme geeignet.

Feinabstimmung des Modells

Das Repository enthält Beispiele für die Feinabstimmung, die auf der TRL-Bibliothek von Hugging Face und der LoRA-Technologie basieren. Hier ist die Feinabstimmung gpt-oss-20b Die Schritte:

  1. Laden Sie den mehrsprachigen Inferenzdatensatz herunter:
    from datasets import load_dataset
    dataset = load_dataset("HuggingFaceH4/Multilingual-Thinking", split="train")
    
  2. Konfigurieren Sie die LoRA-Parameter und laden Sie das Modell:
    from transformers import AutoModelForCausalLM
    from peft import PeftModel, LoraConfig
    model_name = "openai/gpt-oss-20b"
    lora_config = LoraConfig(r=8, lora_alpha=32, target_modules=["q_proj", "v_proj"])
    model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
    model = PeftModel(model, lora_config)
    
  3. Verwenden Sie die TRL-Bibliothek für die Feinabstimmung (siehe das Repository für die finetune.ipynb).
  4. Speichern Sie das fein abgestimmte Modell für spezielle Aufgaben wie die mehrsprachige Inferenz.

Verwendung von vLLM oder Ollama

Wenn ein schneller Einsatz erforderlich ist, unterstützt das Lager vLLM und Ollama:

  • vLLM: Starten Sie einen OpenAI-kompatiblen Server:
    uv pip install --pre vllm==0.10.1+gptoss --extra-index-url https://wheels.vllm.ai/gpt-oss/
    vllm serve openai/gpt-oss-20b
    
  • OllamaLäuft auf Hardware der Verbraucherklasse:
    ollama pull gpt-oss:20b
    ollama run gpt-oss:20b
    

Featured Function Bedienung

  • Werkzeug AufrufDas Modell unterstützt Funktionsaufrufe und Websuchen. Zum Beispiel der Aufruf der Wetterfunktion:
    tools = [{"type": "function", "function": {"name": "get_current_weather", "description": "获取指定地点的天气", "parameters": {"type": "object", "properties": {"location": {"type": "string"}}}}}]
    messages = [{"role": "user", "content": "巴黎的天气如何?"}]
    response = client.chat.completions.create(model="openai/gpt-oss-120b:cerebras", messages=messages, tools=tools)
    
  • mehrsprachige ArgumentationDurch Feinabstimmung kann das Modell Argumentationsprozesse in Englisch, Spanisch, Französisch und anderen Sprachen erzeugen. Der Benutzer kann die Argumentationssprache festlegen, zum Beispiel:
    messages = [{"role": "system", "content": "Reasoning language: Spanish"}, {"role": "user", "content": "¿Cuál es la capital de Australia?"}]
    

Anwendungsszenario

  1. Experimente zur AI-Entwicklung
    Entwickler können die Skripte im Repository verwenden, um die Leistung der GPT OSS-Modelle bei verschiedenen Aufgaben zu testen, z. B. bei der Text- und Codegenerierung oder bei Q&A-Systemen. Ideal für Rapid Prototyping.
  2. Einsatz des lokalen Modells
    Kann von Unternehmen oder Privatpersonen auf lokalen Geräten eingesetzt werden gpt-oss-20bfür datenschutzsensible Szenarien wie die interne Dokumentenverarbeitung oder den Kundensupport.
  3. Bildung und Forschung
    Forscher können die Feinabstimmungs-Tutorials nutzen, um Modelle auf der Grundlage spezifischer Datensätze zu optimieren (z. B. mehrsprachiges Reasoning) und die Anwendung großer Modelle in akademischen Bereichen zu untersuchen.
  4. Integration der Produktionsumgebung
    Das Repository unterstützt die Bereitstellung von API-Servern über vLLM und eignet sich für die Integration von Modellen in Produktionsumgebungen wie Chatbots oder automatisierte Workflows.

QA

  1. Welche Modelle unterstützt das Repository?
    Unterstützung im Lager gpt-oss-120b(117B-Parameter) und gpt-oss-20b(21B-Parameter) für Hochleistungs-GPUs bzw. Consumer-Hardware.
  2. Wie wählt man das richtige Modell?
    Empfohlen, wenn Sie eine H100 GPU haben gpt-oss-120bWenn Sie ein normales Gerät (16 GB Speicher) verwenden, wählen Sie die Option gpt-oss-20b.
  3. Welche Hardware ist erforderlich?
    gpt-oss-20b Erfordert 16 GB RAM.gpt-oss-120b Erfordert 80GB-GPUs (z.B. H100). mxFP4-Quantisierung reduziert den Ressourcenbedarf.
  4. Wie geht man mit Fehlern bei der Modellbildung um?
    Stellen Sie sicher, dass Sie das Harmony-Format für die Ein- und Ausgabe verwenden. Prüfen Sie die Hardwarekompatibilität und aktualisieren Sie Abhängigkeiten wie PyTorch und Triton-Kernel.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch