Qwen3-235B-A22B-Thinking-2507を展開するには、以下の手順が必要です:
- 環境準備ハードウェア要件としては、BF16版では88GBのビデオメモリ、FP8版では30GBのビデオメモリが必要です。ソフトウェア要件には、Python 3.8+、CUDAをサポートするPyTorch、Hugging Faceのトランスフォーマーライブラリ(バージョン≥4.51.0)が含まれます。
- モデルダウンロード使用
huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507
モデルファイルをダウンロードする(BF16版は約437.91GB、FP8版は約220.20GB)。 - 積載モデルトランスフォーマーを使ってモデルをロードする:
AutoModelForCausalLM.from_pretrained
以下は、最も一般的なタイプのリストである。torch_dtype="auto"
歌で応えるdevice_map="auto"
リソースの自動割り当て。 - 最適化された構成ローカルで実行する場合は、コンテキスト長を短くするか(32768トークンなど)、sglang/vLLMフレームワークを使用することで、推論のパフォーマンスを最適化することができます。
ツール呼び出し機能のためには、Qwen-Agent を構成して、ツール・インターフェースを定義 する必要もあります。
この答えは記事から得たものである。Qwen3-235B-A22B-Thinking-2507: 複雑な推論をサポートする大規模言語モデルについて