Qwen3-235B-A22B-Thinking-2507 是由阿里巴巴云 Qwen 团队开发的大型语言模型,发布于2025年7月25日,托管在 Hugging Face 平台上。它专注于复杂推理任务,支持高达256K(262,144)个令牌的上下文长度,适合处理逻辑推理、数学、科学、编程和学术任务。模型采用混合专家(MoE)架构,拥有2350亿个参数,每次推理激活220亿个参数,兼顾性能与效率。它在开源推理模型中表现突出,特别适合需要深入思考和长上下文处理的应用场景。用户可通过多种推理框架如 transformers、sglang 和 vLLM 部署模型,也支持本地运行。
功能列表
- 支持256K令牌的超长上下文理解,处理复杂文档或多轮对话。
- 提供强大的逻辑推理能力,适用于数学、科学和学术问题。
- 擅长编程任务,支持代码生成和调试。
- 集成工具调用功能,通过 Qwen-Agent 简化外部工具交互。
- 支持100多种语言,适合多语言指令遵循和翻译。
- 提供 FP8 量化版本,降低硬件需求,优化推理性能。
- 兼容多种推理框架,如 transformers、sglang、vLLM 和 llama.cpp。
使用帮助
安装与部署
要使用 Qwen3-235B-A22B-Thinking-2507,需准备高性能计算环境,因其模型文件较大(BF16版本约437.91GB,FP8版本约220.20GB)。以下是详细安装步骤:
- 环境准备:
- 确保硬件满足要求:BF16版本建议88GB显存,FP8版本约30GB显存。
- 安装 Python 3.8+ 和 PyTorch,推荐使用 CUDA 支持的 GPU 环境。
- 安装 Hugging Face transformers 库,版本需≥4.51.0,避免兼容性问题:
pip install transformers>=4.51.0
- 可选安装 sglang(≥0.4.6.post1)或 vLLM(≥0.8.5)以支持高效推理:
pip install sglang>=0.4.6.post1 vllm>=0.8.5
- 下载模型:
- 从 Hugging Face 仓库下载模型:
huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507
- 若需 FP8 版本,下载 Qwen3-235B-A22B-Thinking-2507-FP8:
huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
- 从 Hugging Face 仓库下载模型:
- 本地运行:
- 使用 transformers 加载模型:
from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
- 为避免内存不足,可减小上下文长度(如32768令牌):
python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 --tp 8 --context-length 32768 --reasoning-parser deepseek-r1
- 使用 transformers 加载模型:
- 工具调用配置:
- 使用 Qwen-Agent 简化工具调用:
from qwen_agent.agents import Assistant llm_cfg = { 'model': 'qwen3-235b-a22b-thinking-2507', 'model_type': 'qwen_dashscope' } tools = [{'mcpServers': {'time': {'command': 'uvx', 'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']}}}] bot = Assistant(llm=llm_cfg, function_list=tools) messages = [{'role': 'user', 'content': '获取当前时间'}] for responses in bot.run(messages=messages): print(responses)
- 使用 Qwen-Agent 简化工具调用:
主要功能操作
- 复杂推理:模型默认启用思考模式,输出包含
<think>
标签,适合解决数学或逻辑问题。例如,输入“证明费马小定理”,模型会生成逐步推理过程。 - 长上下文处理:支持256K令牌,适合分析长文档。输入长篇文本后,模型可提取关键信息或回答相关问题。
- 编程支持:输入代码片段或问题,如“编写 Python 排序算法”,模型生成完整代码并解释逻辑。
- 工具调用:通过 Qwen-Agent,模型可调用外部工具,如获取时间或执行网络请求,简化复杂任务。
注意事项
- 推理模式下,建议上下文长度≥131072以确保性能。
- 避免使用贪婪解码,可能导致重复输出。
- 对于本地运行,推荐使用 Ollama 或 LMStudio,但需调整上下文长度以避免循环问题。
应用场景
- 学术研究
研究人员可使用模型分析长篇论文,提取关键论点或验证数学公式。其256K上下文长度支持处理整篇文档,适合文献综述或跨章节分析。 - 编程开发
开发者可利用模型生成代码、调试程序或优化算法。例如,输入复杂算法需求,模型会提供代码并解释实现步骤。 - 多语言翻译
企业可使用模型进行多语言文档翻译或指令处理,支持100多种语言,适合跨国沟通或本地化任务。 - 教育支持
学生和教师可利用模型解答数学、科学问题或生成教学材料。模型的推理能力帮助解释复杂概念。
QA
- 模型支持哪些推理框架?
支持 transformers、sglang、vLLM、Ollama、LMStudio 和 llama.cpp。推荐使用最新版本以确保兼容性。 - 如何处理内存不足问题?
降低上下文长度至32768,或使用 FP8 版本以减少显存需求。也可通过 tensor-parallel-size 参数分配多 GPU 资源。 - 如何启用工具调用功能?
使用 Qwen-Agent 配置工具,定义 MCP 文件或内置工具,模型即可自动调用外部功能。