Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

Qwen3-235B-A22B-Thinking-2507 ist ein umfangreiches Sprachmodell, das vom Alibaba Cloud Qwen-Team entwickelt, am 25. Juli 2025 veröffentlicht und auf der Hugging Face-Plattform gehostet wurde. Es konzentriert sich auf komplexe Argumentationsaufgaben, unterstützt Kontextlängen von bis zu 256K (262.144) Token und eignet sich für logisches Denken, Mathematik, Wissenschaft, Programmierung und akademische Aufgaben. Das Modell verwendet eine Mixed Expert (MoE)-Architektur mit 235 Milliarden Parametern und 22 Milliarden aktivierten Parametern pro Schlussfolgerung, die einen Ausgleich zwischen Leistung und Effizienz schafft. Es zeichnet sich unter den Open-Source-Inferenzmodellen aus und eignet sich besonders für Anwendungsszenarien, die tiefes Denken und lange kontextbezogene Verarbeitung erfordern. Benutzer können es mit einer Vielzahl von Inferenz-Frameworks wie Transformers, Sglang und vLLM Bereitstellungsmodell, das auch lokale Läufe unterstützt.

Funktionsliste

  • Unterstützt extrem langes kontextuelles Verstehen von 256K Token für die Verarbeitung komplexer Dokumente oder mehrerer Dialogrunden.
  • Bietet ein starkes logisches Denken für mathematische, wissenschaftliche und akademische Probleme.
  • Fachwissen über Programmieraufgaben mit Unterstützung bei der Codegenerierung und Fehlersuche.
  • Integration von Werkzeugaufruffunktionen zur Vereinfachung der Interaktion mit externen Werkzeugen durch Qwen-Agent.
  • Unterstützt mehr als 100 Sprachen und eignet sich für die mehrsprachige Befehlsverfolgung und Übersetzung.
  • Eine quantisierte Version von FP8 ist verfügbar, um die Hardwareanforderungen zu reduzieren und die Inferenzleistung zu optimieren.
  • Kompatibel mit einer Vielzahl von Inferenz-Frameworks wie Transformers, sglang, vLLM und llama.cpp.

Hilfe verwenden

Installation und Einsatz

Um Qwen3-235B-A22B-Thinking-2507 zu verwenden, müssen Sie aufgrund der großen Modelldateien (etwa 437,91 GB für die BF16-Version und 220,20 GB für die FP8-Version) eine leistungsstarke Computerumgebung vorbereiten. Im Folgenden werden die einzelnen Installationsschritte beschrieben:

  1. Vorbereitung der Umwelt::
    • Vergewissern Sie sich, dass die Hardware den Anforderungen entspricht: 88 GB Videospeicher werden für die BF16-Version empfohlen, und etwa 30 GB Videospeicher für die FP8-Version.
    • Installieren Sie Python 3.8+ und PyTorch, eine GPU-Umgebung mit CUDA-Unterstützung wird empfohlen.
    • Installieren Sie die Hugging Face Transformers Library, Version ≥ 4.51.0, um Kompatibilitätsprobleme zu vermeiden:
      pip install transformers>=4.51.0
      
    • Installieren Sie optional sglang (≥0.4.6.post1) oder vLLM (≥0.8.5), um eine effiziente Argumentation zu unterstützen:
      pip install sglang>=0.4.6.post1 vllm>=0.8.5
      
  2. Modelle herunterladen::
    • Laden Sie das Modell aus dem Hugging Face Repository herunter:
      huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507
      
    • Für die FP8-Version laden Sie bitte Qwen3-235B-A22B-Thinking-2507-FP8 herunter:
      huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
      
  3. lokaler Betrieb::
    • Verwenden Sie Transformatoren, um das Modell zu laden:
      from transformers import AutoModelForCausalLM, AutoTokenizer
      model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"
      tokenizer = AutoTokenizer.from_pretrained(model_name)
      model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
      
    • Um Speichermangel zu vermeiden, kann die Kontextlänge reduziert werden (z. B. 32768 Token):
      python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 --tp 8 --context-length 32768 --reasoning-parser deepseek-r1
      
  4. Werkzeugaufruf Konfiguration::
    • Vereinfachen Sie Tool-Aufrufe mit Qwen-Agent:
      from qwen_agent.agents import Assistant
      llm_cfg = {
      'model': 'qwen3-235b-a22b-thinking-2507',
      'model_type': 'qwen_dashscope'
      }
      tools = [{'mcpServers': {'time': {'command': 'uvx', 'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']}}}]
      bot = Assistant(llm=llm_cfg, function_list=tools)
      messages = [{'role': 'user', 'content': '获取当前时间'}]
      for responses in bot.run(messages=messages):
      print(responses)
      

Hauptfunktionen

  • komplexe InferenzDas Modell hat den Denkmodus standardmäßig aktiviert und die Ausgabe enthält <think> Tags, geeignet für die Lösung mathematischer oder logischer Probleme. Geben Sie z. B. "Beweisen Sie Fermats kleinen Satz" ein, und das Modell generiert einen Schritt-für-Schritt-Argumentationsprozess.
  • lange KontextverarbeitungUnterstützt 256K Token, geeignet für die Analyse von langen Dokumenten. Nach Eingabe eines langen Textes kann das Modell Schlüsselinformationen extrahieren oder relevante Fragen beantworten.
  • Unterstützung bei der ProgrammierungGeben Sie einen Codeschnipsel oder eine Frage ein, z. B. "Schreiben Sie einen Python-Sortieralgorithmus", und das Modell generiert den vollständigen Code und erklärt die Logik.
  • Werkzeug AufrufQwen-Agent: Mit Qwen-Agent können Modelle externe Tools aufrufen, wie z. B. die Zeitabfrage oder die Ausführung von Webanfragen, was komplexe Aufgaben vereinfacht.

caveat

  • Im Inferenzmodus wird eine Kontextlänge ≥ 131072 empfohlen, um die Leistung zu gewährleisten.
  • Vermeiden Sie die Verwendung einer gierigen Dekodierung, die zu einer doppelten Ausgabe führen kann.
  • Für den lokalen Betrieb wird empfohlen, die Ollama oder LMStudio, aber die Kontextlänge muss angepasst werden, um Schleifenprobleme zu vermeiden.

Anwendungsszenario

  1. akademische Forschung
    Forscher können das Modell nutzen, um lange Abhandlungen zu analysieren, Schlüsselargumente zu extrahieren oder mathematische Formeln zu validieren. Die Kontextlänge von 256K unterstützt die Verarbeitung ganzer Dokumente und ist für Literaturübersichten oder kapitelübergreifende Analysen geeignet.
  2. Entwicklung der Programmierung
    Entwickler können Modelle verwenden, um Code zu generieren, Programme zu debuggen oder Algorithmen zu optimieren. Geben Sie zum Beispiel eine komplexe Algorithmusanforderung ein, und das Modell liefert den Code und erklärt die Implementierungsschritte.
  3. mehrsprachige Übersetzung
    Unternehmen können das Modell für die mehrsprachige Übersetzung von Dokumenten oder die Bearbeitung von Anweisungen nutzen. Es unterstützt mehr als 100 Sprachen und eignet sich für grenzüberschreitende Kommunikation oder Lokalisierungsaufgaben.
  4. Pädagogische Unterstützung
    Schüler und Lehrer können Modelle zur Beantwortung mathematischer und wissenschaftlicher Fragen oder zur Erstellung von Lehrmaterial verwenden. Die Argumentationskraft von Modellen hilft dabei, komplexe Konzepte zu erklären.

QA

  1. Welche Inferenzrahmen unterstützt das Modell?
    Unterstützung für Transformers, sglang, vLLM, Ollama, LMStudio und llama.cpp. Die neueste Version wird empfohlen, um Kompatibilität zu gewährleisten.
  2. Wie gehe ich mit Out-of-Memory-Problemen um?
    Reduzieren Sie die Kontextlänge auf 32768 oder verwenden Sie die FP8-Version, um den Speicherbedarf zu reduzieren. Mehrere GPU-Ressourcen können auch über den Parameter tensor-parallel-size zugewiesen werden.
  3. Wie aktiviere ich die Werkzeuganruf-Funktion?
    Definieren Sie mit dem Qwen-Agent Configuration Tool die MCP Dateien oder integrierten Tools kann das Modell automatisch externe Funktionen aufrufen.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Posteingang

Kontakt

zurück zum Anfang

de_DEDeutsch