Qwen3-8B-BitNet bietet zwei charakteristische Inferenzmodi:
- Denkmuster(enable_thinking=True): geeignet für komplexe Logikaufgaben, erzeugt einen detaillierten Denkprozess. Zum Beispiel werden bei mathematischen Gleichungen die Schritte der Lösung Schritt für Schritt angezeigt
- Modus Vivendi(enable_thinking=False): schnellere Reaktionszeit, für einfache Fragen und Antworten oder alltägliche Gespräche
Verfahren zum Umschalten der Betriebsart:
Die Umschaltung erfolgt durch Setzen des Parameters enable_thinking beim Aufruf der Funktion apply_chat_template. Typisches Code-Beispiel:
# 启用思考模式
text = tokenizer.apply_chat_template(messages,
tokenize=False,
enable_thinking=True)
# 禁用思考模式
text = tokenizer.apply_chat_template(messages,
tokenize=False,
enable_thinking=False)
In der Praxis empfiehlt es sich, den Denkmodus für Aufgaben zu aktivieren, die eine schrittweise Analyse erfordern, und den Nicht-Denkmodus für einfache, zeitkritische Aufgaben zu verwenden.
Diese Antwort stammt aus dem ArtikelQwen3-8B-BitNet: ein quelloffenes Sprachmodell für effiziente KompressionDie