Die folgenden Schritte sind erforderlich, um Qwen3-235B-A22B-Thinking-2507 einzusetzen:
- Vorbereitung der UmweltHardware-Anforderungen: 88 GB Videospeicher für die BF16-Version bzw. 30 GB Videospeicher für die FP8-Version. Die Softwareanforderungen umfassen Python 3.8+, PyTorch mit CUDA-Unterstützung und die Hugging Face Transformers Library (Version ≥ 4.51.0).
- Modell Download: Verwendung
huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507
Laden Sie die Modelldateien herunter (etwa 437,91 GB für die BF16-Version und 220,20 GB für die FP8-Version). - Modelle laden: Verwenden Sie Transformatoren, um das Modell zu laden:
AutoModelForCausalLM.from_pretrained
Sie können angebentorch_dtype="auto"
im Gesang antwortendevice_map="auto"
Automatische Zuweisung von Ressourcen. - Optimierte KonfigurationBei lokalen Läufen kann die Inferenzleistung durch Reduzierung der Kontextlänge (z.B. 32768 Token) oder durch Verwendung des sglang/vLLM-Frameworks optimiert werden.
Für die Werkzeugaufruf-Funktionalität müssen Sie auch den Qwen-Agenten konfigurieren, um die Werkzeugschnittstelle zu definieren.
Diese Antwort stammt aus dem ArtikelQwen3-235B-A22B-Thinking-2507: Ein großes Sprachmodell zur Unterstützung komplexer SchlussfolgerungenDie