Qwen3-235B-A22B-Thinking-2507：支持复杂推理的大型语言模型

2025-07-26

482 4

https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507

Qwen3-235B-A22B-Thinking-2507 是由阿里巴巴云 Qwen 团队开发的大型语言模型，发布于2025年7月25日，托管在 Hugging Face 平台上。它专注于复杂推理任务，支持高达256K（262,144）个令牌的上下文长度，适合处理逻辑推理、数学、科学、编程和学术任务。模型采用混合专家（MoE）架构，拥有2350亿个参数，每次推理激活220亿个参数，兼顾性能与效率。它在开源推理模型中表现突出，特别适合需要深入思考和长上下文处理的应用场景。用户可通过多种推理框架如 transformers、sglang 和 vLLM 部署模型，也支持本地运行。

功能列表

支持256K令牌的超长上下文理解，处理复杂文档或多轮对话。
提供强大的逻辑推理能力，适用于数学、科学和学术问题。
擅长编程任务，支持代码生成和调试。
集成工具调用功能，通过 Qwen-Agent 简化外部工具交互。
支持100多种语言，适合多语言指令遵循和翻译。
提供 FP8 量化版本，降低硬件需求，优化推理性能。
兼容多种推理框架，如 transformers、sglang、vLLM 和 llama.cpp。

使用帮助

安装与部署

要使用 Qwen3-235B-A22B-Thinking-2507，需准备高性能计算环境，因其模型文件较大（BF16版本约437.91GB，FP8版本约220.20GB）。以下是详细安装步骤：

环境准备：
- 确保硬件满足要求：BF16版本建议88GB显存，FP8版本约30GB显存。
- 安装 Python 3.8+ 和 PyTorch，推荐使用 CUDA 支持的 GPU 环境。
- 安装 Hugging Face transformers 库，版本需≥4.51.0，避免兼容性问题：
```
pip install transformers>=4.51.0
```
- 可选安装 sglang（≥0.4.6.post1）或 vLLM（≥0.8.5）以支持高效推理：
```
pip install sglang>=0.4.6.post1 vllm>=0.8.5
```

下载模型：

从 Hugging Face 仓库下载模型：

huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507

若需 FP8 版本，下载 Qwen3-235B-A22B-Thinking-2507-FP8：

huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507-FP8

本地运行：

使用 transformers 加载模型：

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")

为避免内存不足，可减小上下文长度（如32768令牌）：

python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 --tp 8 --context-length 32768 --reasoning-parser deepseek-r1

工具调用配置：

使用 Qwen-Agent 简化工具调用：

from qwen_agent.agents import Assistant
llm_cfg = {
'model': 'qwen3-235b-a22b-thinking-2507',
'model_type': 'qwen_dashscope'
}
tools = [{'mcpServers': {'time': {'command': 'uvx', 'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']}}}]
bot = Assistant(llm=llm_cfg, function_list=tools)
messages = [{'role': 'user', 'content': '获取当前时间'}]
for responses in bot.run(messages=messages):
print(responses)

主要功能操作

复杂推理：模型默认启用思考模式，输出包含 <think> 标签，适合解决数学或逻辑问题。例如，输入“证明费马小定理”，模型会生成逐步推理过程。
长上下文处理：支持256K令牌，适合分析长文档。输入长篇文本后，模型可提取关键信息或回答相关问题。
编程支持：输入代码片段或问题，如“编写 Python 排序算法”，模型生成完整代码并解释逻辑。
工具调用：通过 Qwen-Agent，模型可调用外部工具，如获取时间或执行网络请求，简化复杂任务。

注意事项

推理模式下，建议上下文长度≥131072以确保性能。
避免使用贪婪解码，可能导致重复输出。
对于本地运行，推荐使用 Ollama 或 LMStudio，但需调整上下文长度以避免循环问题。

应用场景

学术研究
研究人员可使用模型分析长篇论文，提取关键论点或验证数学公式。其256K上下文长度支持处理整篇文档，适合文献综述或跨章节分析。
编程开发
开发者可利用模型生成代码、调试程序或优化算法。例如，输入复杂算法需求，模型会提供代码并解释实现步骤。
多语言翻译
企业可使用模型进行多语言文档翻译或指令处理，支持100多种语言，适合跨国沟通或本地化任务。
教育支持
学生和教师可利用模型解答数学、科学问题或生成教学材料。模型的推理能力帮助解释复杂概念。

QA

模型支持哪些推理框架？
支持 transformers、sglang、vLLM、Ollama、LMStudio 和 llama.cpp。推荐使用最新版本以确保兼容性。
如何处理内存不足问题？
降低上下文长度至32768，或使用 FP8 版本以减少显存需求。也可通过 tensor-parallel-size 参数分配多 GPU 资源。
如何启用工具调用功能？
使用 Qwen-Agent 配置工具，定义 MCP 文件或内置工具，模型即可自动调用外部功能。

AI开源项目

AI生产力工具 » Qwen3-235B-A22B-Thinking-2507：支持复杂推理的大型语言模型发布于 2025-07-26，如发现网址过期，或无法访问，请联系我们。

0已收藏

0已赞

Qwen3-235B-A22B-Thinking-2507：支持复杂推理的大型语言模型

功能列表

使用帮助

安装与部署

主要功能操作

注意事项

应用场景

QA

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

Qwen3-235B-A22B-Thinking-2507：支持复杂推理的大型语言模型

功能列表

使用帮助

安装与部署

主要功能操作

注意事项

应用场景

QA

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

快速查询站内AI工具