Seed-OSS bietet eine flexible Funktion zur Steuerung des Inferenzbudgets, die es dem Benutzer ermöglicht, die Inferenzlänge über den Parameter thinking_budget dynamisch anzupassen, um ein Gleichgewicht zwischen Inferenzgeschwindigkeit und -tiefe herzustellen. Die spezifische Methode zur Verwendung dieser Funktion ist wie folgt:
- einfache Aufgabe(wie übersetzt): set thinking_budget=128.
- Aufgaben mittlerer Komplexität(z. B. regelmäßige Q&A): schlägt thinking_budget=512 vor.
- komplexe Aufgabe(z.B. mathematisches Denken oder Codegenerierung): set thinking_budget=1024.
Dieser Parameter kann direkt im Generierungsskript gesetzt werden, zum Beispiel in Python-Code:
tokenized_chat = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
thinking_budget=1024
)
Durch die Anpassung dieses Parameters kann der Benutzer die Effizienz und Effektivität des Modells je nach den tatsächlichen Anforderungen der Aufgabe optimieren.
Diese Antwort stammt aus dem ArtikelSeed-OSS: Open Source Large Language Models für Long Context Reasoning und vielseitige AnwendungenDie































