Derzeitige Position:Abb. Anfang " AI-Antworten

Wie wird das Modell Qwen3-235B-A22B-Thinking-2507 eingesetzt?

2025-08-20

760

Die folgenden Schritte sind erforderlich, um Qwen3-235B-A22B-Thinking-2507 einzusetzen:

Vorbereitung der UmweltHardware-Anforderungen: 88 GB Videospeicher für die BF16-Version bzw. 30 GB Videospeicher für die FP8-Version. Die Softwareanforderungen umfassen Python 3.8+, PyTorch mit CUDA-Unterstützung und die Hugging Face Transformers Library (Version ≥ 4.51.0).
Modell Download: Verwendunghuggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507Laden Sie die Modelldateien herunter (etwa 437,91 GB für die BF16-Version und 220,20 GB für die FP8-Version).
Modelle laden: Verwenden Sie Transformatoren, um das Modell zu laden:AutoModelForCausalLM.from_pretrainedSie können angebentorch_dtype="auto"im Gesang antwortendevice_map="auto"Automatische Zuweisung von Ressourcen.
Optimierte KonfigurationBei lokalen Läufen kann die Inferenzleistung durch Reduzierung der Kontextlänge (z.B. 32768 Token) oder durch Verwendung des sglang/vLLM-Frameworks optimiert werden.

Für die Werkzeugaufruf-Funktionalität müssen Sie auch den Qwen-Agenten konfigurieren, um die Werkzeugschnittstelle zu definieren.

Schnellabfragestation AI-Tool