Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

Seed-OSS ist eine Reihe von Open-Source-Sprachmodellen, die vom Seed-Team von ByteDance entwickelt wurden und sich auf die Verarbeitung langer Kontexte, die Fähigkeit zur Schlussfolgerung und die Optimierung von Agentenaufgaben konzentrieren. Die Modelle enthalten 36 Milliarden Parameter, die mit nur 12 Billionen Token trainiert wurden und in vielen Mainstream-Benchmarks eine hervorragende Leistung erbringen. Sie unterstützen die Verarbeitung sehr langer Kontexte mit 512K Token, was für internationalisierte Anwendungsszenarien geeignet ist.Seed-OSS bietet eine flexible Steuerung des Reasoning-Budgets, die es den Benutzern ermöglicht, die Reasoning-Länge ihren Bedürfnissen entsprechend anzupassen und die Effizienz praktischer Anwendungen zu verbessern. Seed-OSS steht unter der Apache-2.0-Lizenz und ist vollständig quelloffen, so dass es von Entwicklern frei verwendet und verändert werden kann. Es ist in der Forschung, bei Inferenzaufgaben und in multimodalen Szenarien weit verbreitet und hat mehr als 50 praktische Anwendungen von ByteDance unterstützt.

Funktionsliste

  • Extrem lange KontextverarbeitungUnterstützt 512K Token-Kontextfenster, was etwa 1600 Textseiten entspricht, geeignet für die Bearbeitung langer Dokumente oder komplexer Dialoge.
  • Flexible Argumentation für die HaushaltskontrolleBenutzer können auf die Informationen über das thinking_budget Die Parameter passen die Länge der Schlussfolgerungen dynamisch an, um ein Gleichgewicht zwischen Geschwindigkeit und Tiefe herzustellen.
  • starke ArgumentationEr ist für komplexe Aufgaben wie Mathematik und Codegenerierung optimiert und schneidet in Benchmarks wie AIME und LiveCodeBench gut ab.
  • Internationalisierung OptimierungUnterstützung für mehrsprachige Aufgaben, die für Entwickler weltweit geeignet sind und die Übersetzung und das Verstehen in mehreren Sprachen umfassen.
  • Unterstützung von AgentenmissionenEingebaute Werkzeugaufruf-Funktionalität mit enable-auto-tool-choice Eine automatisierte Aufgabenbearbeitung ist möglich.
  • Effizienter EinsatzUnterstützung für Multi-GPU-Reasoning, Kompatibilität mit bfloat16 Datentypen, um die Effizienz der Inferenz zu optimieren.
  • Open Source und Unterstützung durch die GemeinschaftBasierend auf der Apache-2.0-Lizenz, bietet es vollständige Modellgewichte und Code für eine einfache Anpassung durch Entwickler.

Hilfe verwenden

Einbauverfahren

Um das Seed-OSS-Modell zu verwenden, führen Sie die folgenden Schritte aus, um es lokal oder auf einem Server zu installieren und zu konfigurieren. Im Folgenden finden Sie ein Beispiel für das Seed-OSS-36B-Instruct-Modell, das auf der offiziellen Anleitung von GitHub basiert.

  1. Klon-Lager::
    git clone https://github.com/ByteDance-Seed/seed-oss.git
    cd seed-oss
    
  2. Installation von Abhängigkeiten::
    Stellen Sie sicher, dass Python 3.8+ und pip auf Ihrem System installiert sind. Führen Sie den folgenden Befehl aus, um die erforderlichen Abhängigkeiten zu installieren:

    pip3 install -r requirements.txt
    pip install git+ssh://git@github.com/Fazziekey/transformers.git@seed-oss
    
  3. Installation von vLLM (empfohlen)::
    Seed-OSS unterstützt das vLLM-Framework für eine effizientere Argumentation. Installieren Sie vLLM:

    VLLM_USE_PRECOMPILED=1 VLLM_TEST_USE_PRECOMPILED_NIGHTLY_WHEEL=1 pip install git+ssh://git@github.com/FoolPlayer/vllm.git@seed-oss
    
  4. Download Modellgewichte::
    Download Seed-OSS-36B-Instruct Modell Gewichte von Hugging Face:

    huggingface-cli download ByteDance-Seed/Seed-OSS-36B-Instruct --local-dir ./Seed-OSS-36B-Instruct
    
  5. Konfigurieren der Laufzeitumgebung::
    Stellen Sie sicher, dass das System über eine Hardwareumgebung verfügt, die mehrere GPUs unterstützt (z. B. NVIDIA H100). Empfohlene Konfigurationen tensor-parallel-size=8 im Gesang antworten bfloat16 Datentyp, um die Leistung zu optimieren.
  6. Argumentationsdienst einleiten::
    Verwenden Sie vLLM, um einen OpenAI-kompatiblen API-Dienst zu starten:

    python3 -m vllm.entrypoints.openai.api_server \
    --host localhost \
    --port 4321 \
    --enable-auto-tool-choice \
    --tool-call-parser seed_oss \
    --trust-remote-code \
    --model ./Seed-OSS-36B-Instruct \
    --chat-template ./Seed-OSS-36B-Instruct/chat_template.jinja \
    --tensor-parallel-size 8 \
    --dtype bfloat16 \
    --served-model-name seed_oss
    

Verwendung

Seed-OSS bietet eine Vielzahl von Nutzungsmöglichkeiten, die für unterschiedliche Szenarien geeignet sind. Nachfolgend finden Sie den detaillierten Ablauf der Hauptfunktionen.

1. grundlegender Dialog und Argumentation

Verwenden Sie Python-Skripte, um mit dem Modell zu interagieren. Nehmen Sie das Beispiel der Erstellung eines Kochtutorials:

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "ByteDance-Seed/Seed-OSS-36B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
messages = [{"role": "user", "content": "How to make pasta?"}]
tokenized_chat = tokenizer.apply_chat_template(
messages, 
tokenize=True, 
add_generation_prompt=True, 
return_tensors="pt", 
thinking_budget=512
)
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])
print(output_text)
  • Wichtige Parameter::
    • thinking_budget=512Steuert die Tiefe des Denkens, je höher der Wert, desto tiefer das Denken, geeignet für komplexe Aufgaben.
    • max_new_tokens=2048Legt die maximale Anzahl der zu erzeugenden Token fest, was sich auf die Länge der Ausgabe auswirkt.

2. lange Kontextverarbeitung

Seed-OSS unterstützt 512K Token-Kontexte, was für die Verarbeitung langer Dokumente oder Dialoge mit mehreren Runden geeignet ist. Zum Beispiel für die Analyse von langen Berichten:

  1. Verwenden Sie den Inhalt eines langen Dokuments als Ergebnis von messages Eingabe, im Format [{"role": "user", "content": "<长文档内容>"}].
  2. Einstellung Hoch thinking_budget(z. B. 1024), um tiefgreifende Schlussfolgerungen zu gewährleisten.
  3. Verwenden Sie das obige Skript, um Zusammenfassungen zu erstellen oder Fragen zu beantworten.

3. stellvertretende Aufgaben und Tool-Aufrufe

Seed-OSS unterstützt den automatischen Aufruf von Tools, muss aber aktiviert werden. enable-auto-tool-choiceNach der Konfiguration des API-Dienstes kann das Modell zum Beispiel über eine HTTP-Anfrage aufgerufen werden. Nachdem Sie beispielsweise den API-Dienst konfiguriert haben, können Sie das Modell über eine HTTP-Anforderung aufrufen:

curl http://localhost:4321/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "seed_oss",
"messages": [{"role": "user", "content": "Calculate 2+2"}]
}'
  • Das Modell wählt automatisch das entsprechende Werkzeug (z. B. einen Taschenrechner) aus und liefert die Ergebnisse.
  • sicher tool-call-parser seed_oss Aktiviert zum Parsen von Werkzeugaufrufen.

4) Überlegungen zur Budgetoptimierung

Der Benutzer kann die thinking_budget Effizienz der Parameteroptimierung in der Inferenz:

  • Einfache Aufgaben (z. B. Übersetzung): Einstellung thinking_budget=128.
  • Komplexe Aufgaben (z. B. mathematisches Denken): Einrichten thinking_budget=1024.
    Beispiel:
tokenized_chat = tokenizer.apply_chat_template(
messages, 
tokenize=True, 
add_generation_prompt=True, 
return_tensors="pt", 
thinking_budget=1024
)

5. die Optimierung des Einsatzes

  • Multi-GPU-Inferenz: durch tensor-parallel-size Parameter, um GPU-Ressourcen zuzuweisen. Zum Beispiel.tensor-parallel-size=8 Geeignet für 8 GPUs.
  • Datentyp: Verwendung bfloat16 Geringerer Grafikspeicherbedarf für groß angelegte Implementierungen.
  • Konfigurationen generieren: Empfehlungen temperature=1.1 im Gesang antworten top_p=0.95 für verschiedene Ausgaben. Für bestimmte Aufgaben (z. B. Taubench) kann dies angepasst werden auf temperature=1 im Gesang antworten top_p=0.7.

caveat

  • Hardware-VoraussetzungMindestens 1 NVIDIA H100-80G-Grafikprozessor wird empfohlen, wobei 4 davon Aufgaben mit höherer Auflösung unterstützen.
  • Auswahl des ModellsSeed-OSS ist in den Versionen Base und Instruct erhältlich, wobei Instruct eher für interaktive Aufgaben und Base für Forschung und Feinabstimmung geeignet ist.
  • Unterstützung der Gemeinschaft: Tragen Sie zur Gemeinschaft bei, indem Sie ein Problem oder einen Pull-Request über GitHub einreichen.

Anwendungsszenario

  1. akademische Forschung
    • Beschreibung der SzeneForscher können Seed-OSS für lange Dokumentenanalysen, Datenextraktion oder komplexe Schlussfolgerungen verwenden. Zum Beispiel für die Analyse von akademischen Arbeiten oder die Erstellung von Zusammenfassungen von Forschungsberichten.
  2. mehrsprachige Anwendung
    • Beschreibung der SzeneEntwickler können die Vorteile der mehrsprachigen Unterstützung des Modells nutzen, um internationalisierte Chatbots oder Übersetzungstools zu erstellen, die mehrere Sprachszenarien abdecken.
  3. Automation Agents
    • Beschreibung der SzeneUnternehmen können Seed-OSS als intelligenten Agenten für den Kundenservice, die automatische Aufgabenplanung oder die Datenanalyse einsetzen.
  4. Codegenerierung
    • Beschreibung der SzeneProgrammierer können das Modell verwenden, um Codeschnipsel zu erzeugen oder komplexe Algorithmen in Verbindung mit 512K-Kontexten zu debuggen, um große Codebasen zu verarbeiten.
  5. Pädagogische Unterstützung
    • Beschreibung der SzeneBildungseinrichtungen können die Modelle nutzen, um Lehrmaterial zu erstellen, Fragen von Schülern zu beantworten oder individuelle Lernberatung anzubieten.

QA

  1. Welche Sprachen werden von Seed-OSS unterstützt?
    • Das Modell ist für internationalisierte Szenarien optimiert und unterstützt mehrere Sprachen, darunter Englisch, Chinesisch, Spanisch usw. Die spezifische Leistung kann im FLORES-200-Benchmark-Test ermittelt werden.
  2. Wie kann ich mein Argumentationsbudget anpassen?
    • Einstellung im Generierungsskript thinking_budget Parameter, der von 128 (für einfache Aufgaben) bis 1024 (für komplexe Aufgaben) reicht und je nach den Anforderungen der Aufgabe angepasst wird.
  3. Wie viel Videospeicher wird für die Ausführung des Modells benötigt?
    • Ein einzelner H100-80G-Grafikprozessor kann grundlegende Inferenzen unterstützen, und 4 Grafikprozessoren können Aufgaben mit höherer Last bewältigen. Empfohlene Nutzung bfloat16 Geringere Anforderungen an den Grafikspeicher.
  4. Wie kann ich mich an der Modellentwicklung beteiligen?
    • Code kann über das GitHub-Repository (https://github.com/ByteDance-Seed/seed-oss) unter der Apache-2.0-Lizenz eingereicht oder Probleme zurückgemeldet werden.
0Lesezeichen
0Gelobt

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch