Qwen3-235B-A22B-Thinking-2507はAlibaba Cloud Qwenチームによって開発された大規模言語モデルで、2025年7月25日にリリースされ、Hugging Faceプラットフォームでホストされています。複雑な推論タスクに焦点を当て、最大256K(262,144)トークンのコンテキスト長をサポートし、論理的推論、数学、科学、プログラミング、および学術的タスクの処理に適しています。このモデルは、2,350億のパラメータと推論ごとに有効化される220億のパラメータを持つ混合エキスパート(MoE)アーキテクチャを使用しており、性能と効率のバランスをとっている。オープンソースの推論モデルの中でも特に優れており、深い思考と長い文脈処理を必要とするアプリケーションシナリオに特に適している。ユーザーは、transformers、sglang、および "gloops "などの様々な推論フレームワークと組み合わせて使用することができる。 ブイエルエルエム ローカルランもサポートする展開モデル。
機能一覧
- 複雑な文書や複数回の対話を処理するために、256Kトークンの超長文文脈理解をサポート。
- 数学、科学、アカデミックな問題に強い論理的推論を提供する。
- コード生成とデバッグをサポートするプログラミング作業の専門知識。
- ツール呼び出し機能の統合により、Qwen-Agentを介した外部ツールとのやり取りを簡素化。
- 100以上の言語をサポートし、多言語でのコマンドフォローや翻訳に適しています。
- FP8の定量化バージョンは、ハードウェア要件を減らし、推論性能を最適化するために利用できる。
- transformers、sglang、vLLM、llama.cppなど様々な推論フレームワークと互換性がある。
ヘルプの使用
インストールと展開
Qwen3-235B-A22B-Thinking-2507を使用するには、モデルファイルが大きい(BF16版で約437.91GB、FP8版で約220.20GB)ため、高性能な計算環境を準備する必要があります。以下に詳しいインストール手順を示します:
- 環境準備::
- BF16版では88GB、FP8版では約30GBのビデオメモリを推奨します。
- Python 3.8+とPyTorch(CUDAをサポートするGPU環境を推奨)をインストールする。
- 互換性の問題を避けるために、Hugging Faceトランスフォーマーライブラリのバージョン≥4.51.0をインストールしてください:
pip install transformers>=4.51.0
- オプションで、効率的な推論をサポートするために sglang (≥0.4.6.post1) または vLLM (≥0.8.5) をインストールしてください:
pip install sglang>=0.4.6.post1 vllm>=0.8.5
- ダウンロードモデル::
- Hugging Faceリポジトリからモデルをダウンロードしてください:
huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507
- FP8版については、Qwen3-235B-A22B-Thinking-2507-FP8をダウンロードしてください:
huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
- Hugging Faceリポジトリからモデルをダウンロードしてください:
- ローカルオペレーション::
- 変圧器を使ってモデルに負荷をかける:
from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
- メモリ不足を避けるために、コンテキストの長さを短くすることができる(例えば、32768トークン):
python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 --tp 8 --context-length 32768 --reasoning-parser deepseek-r1
- 変圧器を使ってモデルに負荷をかける:
- ツールコールの設定::
- Qwen-Agentでツールコールを簡素化:
from qwen_agent.agents import Assistant llm_cfg = { 'model': 'qwen3-235b-a22b-thinking-2507', 'model_type': 'qwen_dashscope' } tools = [{'mcpServers': {'time': {'command': 'uvx', 'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']}}}] bot = Assistant(llm=llm_cfg, function_list=tools) messages = [{'role': 'user', 'content': '获取当前时间'}] for responses in bot.run(messages=messages): print(responses)
- Qwen-Agentでツールコールを簡素化:
主な機能
- 複合推論このモデルはデフォルトでthinkモードが有効になっており、出力には以下が含まれる。
<think>
数学的または論理的な問題を解くのに適したタグ。例えば、「フェルマーの小定理を証明せよ」と入力すると、モデルは段階的な推論プロセスを生成する。 - ロングコンテクスト処理256Kトークンをサポートし、長い文書の分析に適しています。長いテキストを入力した後、モデルは重要な情報を抽出したり、関連する質問に答えることができます。
- プログラミング・サポートコード・スニペットや「Pythonのソート・アルゴリズムを書きなさい」といった質問を入力すると、モデルは完全なコードを生成し、ロジックを説明します。
- ツールコールQwen-Agent を使用することで、モデルは時刻の取得や Web リクエストの実行などの外部ツールを呼び出すことができ、複雑なタスクを簡素化できます。
ほら
- 推論モードでは、パフォーマンスを確保するためにコンテキスト長≧131072を推奨する。
- 貪欲なデコードは、出力が重複する可能性があるので避けること。
- ローカルでの操作には オーラマ や LMStudio では、ループの問題を避けるためにコンテキストの長さを調整する必要があります。
アプリケーションシナリオ
- 学術研究
研究者はこのモデルを使って、長い論文を分析したり、重要な論点を抽出したり、数式を検証したりすることができる。256Kのコンテキスト長は文書全体の処理をサポートし、文献レビューや章をまたいだ分析に適しています。 - プログラミング開発
開発者はこのモデルを使用して、コードの生成、プログラムのデバッグ、アルゴリズムの最適化を行うことができます。例えば、複雑なアルゴリズムの要件を入力すると、モデルがコードを提供し、実装ステップを説明します。 - 多言語翻訳
企業はこのモデルを多言語文書翻訳や命令処理に使用することができ、100以上の言語をサポートしているため、国境を越えたコミュニケーションやローカリゼーション作業に適している。 - 教育支援
生徒や教師は、数学的・科学的な質問に答えたり、教材を作ったりするために模型を使うことができる。モデルの推論力は、複雑な概念を説明するのに役立ちます。
品質保証
- モデルはどのような推論フレームワークをサポートしているか?
トランスフォーマー、sglang、vLLM、Ollama、LMStudio、llama.cpp をサポートしています。 互換性を確保するために最新版を推奨します。 - メモリ不足の問題に対処するには?
コンテキストの長さを32768に減らすか、FP8バージョンを使ってメモリ要件を減らしてください。複数のGPUリソースをtensor-parallel-sizeパラメータで割り当てることもできます。 - ツール・コール機能を有効にする方法を教えてください。
Qwen-Agent コンフィギュレーション・ツールを使用して、以下を定義します。 エムシーピー ファイルや組込みツールを使用すると、モデルは自動的に外部関数を呼び出すことができます。