Posição atual:fig. início " Biblioteca de ferramentas de IA

Qwen3-235B-A22B-Thinking-2507：支持复杂推理的大型语言模型

Qwen3-235B-A22B-Thinking-2507: um modelo de linguagem grande para apoiar o raciocínio complexo

2025-07-26

Biblioteca de ferramentas de IA/modelo básico/modelo de texto

1.3 K 4

https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507

fazer uma cópia de

Link diretoVisualização móvel

O Qwen3-235B-A22B-Thinking-2507 é um modelo de linguagem em grande escala desenvolvido pela equipe do Alibaba Cloud Qwen, lançado em 25 de julho de 2025 e hospedado na plataforma Hugging Face. Ele se concentra em tarefas de raciocínio complexas, suporta comprimentos de contexto de até 256K (262.144) tokens e é adequado para lidar com raciocínio lógico, matemática, ciências, programação e tarefas acadêmicas. O modelo usa uma arquitetura Mixed Expert (MoE) com 235 bilhões de parâmetros e 22 bilhões de parâmetros ativados por inferência, equilibrando desempenho e eficiência. Ele se destaca entre os modelos de inferência de código aberto e é especialmente adequado para cenários de aplicativos que exigem raciocínio profundo e longo processamento contextual. Os usuários podem usá-lo com uma variedade de estruturas de inferência, como transformadores, sglang e vLLM Modelo de implantação que também oferece suporte a execuções locais.

Lista de funções

Oferece suporte à compreensão contextual ultralonga de 256 mil tokens para processar documentos complexos ou várias rodadas de diálogo.
Fornece um forte raciocínio lógico para problemas matemáticos, científicos e acadêmicos.
Experiência em tarefas de programação com suporte para geração e depuração de código.
Integração da funcionalidade de invocação de ferramentas para simplificar as interações com ferramentas externas por meio do Qwen-Agent.
Suporta mais de 100 idiomas e é adequado para tradução e acompanhamento de comandos multilíngues.
Uma versão quantificada do FP8 está disponível para reduzir os requisitos de hardware e otimizar o desempenho da inferência.
Compatível com várias estruturas de inferência, como transformers, sglang, vLLM e llama.cpp.

Usando a Ajuda

Instalação e implementação

Para usar o Qwen3-235B-A22B-Thinking-2507, você precisa preparar um ambiente de computação de alto desempenho devido aos seus grandes arquivos de modelo (cerca de 437,91 GB para a versão BF16 e 220,20 GB para a versão FP8). Veja a seguir as etapas detalhadas de instalação:

Preparação ambiental::
- Verifique se o hardware atende aos requisitos: recomenda-se 88 GB de memória de vídeo para a versão BF16 e cerca de 30 GB de memória de vídeo para a versão FP8.
- Instale o Python 3.8+ e o PyTorch, um ambiente de GPU com suporte a CUDA é recomendado.
- Instale a biblioteca de transformadores Hugging Face, versão ≥ 4.51.0, para evitar problemas de compatibilidade:
```
pip install transformers>=4.51.0
```
- Opcionalmente, instale o sglang (≥0.4.6.post1) ou o vLLM (≥0.8.5) para dar suporte ao raciocínio eficiente:
```
pip install sglang>=0.4.6.post1 vllm>=0.8.5
```
Modelos para download::
- Baixe o modelo do repositório Hugging Face:
```
huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507
```
- Para a versão FP8, faça o download do Qwen3-235B-A22B-Thinking-2507-FP8:
```
huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
```

operação local::

Use transformadores para carregar o modelo:

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")

Para evitar o esgotamento da memória, o comprimento do contexto pode ser reduzido (por exemplo, 32768 tokens):

python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 --tp 8 --context-length 32768 --reasoning-parser deepseek-r1

Configuração de chamada de ferramenta::

Simplifique as chamadas de ferramentas com o Qwen-Agent:

from qwen_agent.agents import Assistant
llm_cfg = {
'model': 'qwen3-235b-a22b-thinking-2507',
'model_type': 'qwen_dashscope'
}
tools = [{'mcpServers': {'time': {'command': 'uvx', 'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']}}}]
bot = Assistant(llm=llm_cfg, function_list=tools)
messages = [{'role': 'user', 'content': '获取当前时间'}]
for responses in bot.run(messages=messages):
print(responses)

Funções principais

inferência complexaO modelo tem o modo pensar ativado por padrão e a saída contém <think> Tags, adequadas para resolver problemas matemáticos ou lógicos. Por exemplo, digite "prove Fermat's Little Theorem" e o modelo gerará um processo de raciocínio passo a passo.
processamento de contexto longoSuporte a 256 mil tokens, adequado para a análise de documentos longos. Após a entrada de um texto longo, o modelo pode extrair informações importantes ou responder a perguntas relevantes.
Suporte à programaçãoDigite um trecho de código ou uma pergunta, como "Escreva um algoritmo de classificação em Python", e o modelo gera o código completo e explica a lógica.
Chamada de ferramentaCom o Qwen-Agent, os modelos podem invocar ferramentas externas, como a obtenção de tempo ou a execução de solicitações da Web, simplificando tarefas complexas.

advertência

No modo de inferência, recomenda-se um comprimento de contexto ≥ 131072 para garantir o desempenho.
Evite usar a decodificação rápida, que pode resultar em uma saída duplicada.
Para operação local, é recomendável usar o Ollama ou LMStudio, mas o comprimento do contexto precisa ser ajustado para evitar problemas de looping.

cenário do aplicativo

pesquisa acadêmica
Os pesquisadores podem usar o modelo para analisar documentos longos, extrair argumentos importantes ou validar fórmulas matemáticas. Seu comprimento de contexto de 256K permite o processamento de documentos inteiros e é adequado para revisões de literatura ou análises entre capítulos.
Desenvolvimento de programação
Os desenvolvedores podem usar o modelo para gerar código, depurar programas ou otimizar algoritmos. Por exemplo, insira um requisito de algoritmo complexo e o modelo fornecerá o código e explicará as etapas de implementação.
tradução multilíngue
As empresas podem usar o modelo para tradução de documentos multilíngues ou processamento de instruções, com suporte para mais de 100 idiomas, adequado para tarefas de comunicação ou localização internacionais.
Suporte educacional
Alunos e professores podem usar modelos para responder a perguntas matemáticas e científicas ou para gerar materiais de instrução. O poder de raciocínio dos modelos ajuda a explicar conceitos complexos.

QA

Quais estruturas de inferência são compatíveis com o modelo?
Suporte para transformadores, sglang, vLLM, Ollama, LMStudio e llama.cpp. Recomenda-se a versão mais recente para garantir a compatibilidade.
Como faço para lidar com problemas de falta de memória?
Reduza o comprimento do contexto para 32768 ou use a versão FP8 para reduzir os requisitos de memória. Vários recursos de GPU também podem ser alocados por meio do parâmetro tensor-parallel-size.
Como faço para ativar o recurso de chamada de ferramenta?
Usando a Ferramenta de configuração do Qwen-Agent, defina o MCP ou ferramentas integradas, o modelo pode chamar automaticamente funções externas.

Qwen3-235B-A22B-Thinking-2507: um modelo de linguagem grande para apoiar o raciocínio complexo

Lista de funções

Usando a Ajuda

Instalação e implementação

Funções principais

advertência

cenário do aplicativo

QA

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Qwen3-235B-A22B-Thinking-2507: um modelo de linguagem grande para apoiar o raciocínio complexo

Lista de funções

Usando a Ajuda

Instalação e implementação

Funções principais

advertência

cenário do aplicativo

QA

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida