O Qwen3-235B-A22B-Thinking-2507 é um modelo de linguagem em grande escala desenvolvido pela equipe do Alibaba Cloud Qwen, lançado em 25 de julho de 2025 e hospedado na plataforma Hugging Face. Ele se concentra em tarefas de raciocínio complexas, suporta comprimentos de contexto de até 256K (262.144) tokens e é adequado para lidar com raciocínio lógico, matemática, ciências, programação e tarefas acadêmicas. O modelo usa uma arquitetura Mixed Expert (MoE) com 235 bilhões de parâmetros e 22 bilhões de parâmetros ativados por inferência, equilibrando desempenho e eficiência. Ele se destaca entre os modelos de inferência de código aberto e é especialmente adequado para cenários de aplicativos que exigem raciocínio profundo e longo processamento contextual. Os usuários podem usá-lo com uma variedade de estruturas de inferência, como transformadores, sglang e vLLM Modelo de implantação que também oferece suporte a execuções locais.
Lista de funções
- Oferece suporte à compreensão contextual ultralonga de 256 mil tokens para processar documentos complexos ou várias rodadas de diálogo.
- Fornece um forte raciocínio lógico para problemas matemáticos, científicos e acadêmicos.
- Experiência em tarefas de programação, suporte à geração de código e depuração.
- Integrar a funcionalidade de invocação de ferramentas para simplificar as interações de ferramentas externas por meio do Qwen-Agent.
- Suporta mais de 100 idiomas e é adequado para tradução e acompanhamento de comandos multilíngues.
- Uma versão quantificada do FP8 está disponível para reduzir os requisitos de hardware e otimizar o desempenho da inferência.
- Compatível com várias estruturas de inferência, como transformers, sglang, vLLM e llama.cpp.
Usando a Ajuda
Instalação e implementação
Para usar o Qwen3-235B-A22B-Thinking-2507, você precisa preparar um ambiente de computação de alto desempenho devido aos seus grandes arquivos de modelo (cerca de 437,91 GB para a versão BF16 e 220,20 GB para a versão FP8). Veja a seguir as etapas detalhadas de instalação:
- Preparação ambiental::
- Verifique se o hardware atende aos requisitos: recomenda-se 88 GB de memória de vídeo para a versão BF16 e cerca de 30 GB de memória de vídeo para a versão FP8.
- Instale o Python 3.8+ e o PyTorch, um ambiente de GPU com suporte a CUDA é recomendado.
- Instale a biblioteca de transformadores Hugging Face, versão ≥ 4.51.0, para evitar problemas de compatibilidade:
pip install transformers>=4.51.0
- Opcionalmente, instale o sglang (≥0.4.6.post1) ou o vLLM (≥0.8.5) para dar suporte ao raciocínio eficiente:
pip install sglang>=0.4.6.post1 vllm>=0.8.5
- Modelos para download::
- Baixe o modelo do repositório Hugging Face:
huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507
- Para a versão FP8, faça o download do Qwen3-235B-A22B-Thinking-2507-FP8:
huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
- Baixe o modelo do repositório Hugging Face:
- operação local::
- Use transformadores para carregar o modelo:
from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
- Para evitar o esgotamento da memória, o comprimento do contexto pode ser reduzido (por exemplo, 32768 tokens):
python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 --tp 8 --context-length 32768 --reasoning-parser deepseek-r1
- Use transformadores para carregar o modelo:
- Configuração de chamada de ferramenta::
- Simplifique as chamadas de ferramentas com o Qwen-Agent:
from qwen_agent.agents import Assistant llm_cfg = { 'model': 'qwen3-235b-a22b-thinking-2507', 'model_type': 'qwen_dashscope' } tools = [{'mcpServers': {'time': {'command': 'uvx', 'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']}}}] bot = Assistant(llm=llm_cfg, function_list=tools) messages = [{'role': 'user', 'content': '获取当前时间'}] for responses in bot.run(messages=messages): print(responses)
- Simplifique as chamadas de ferramentas com o Qwen-Agent:
Funções principais
- inferência complexaO modelo tem o modo pensar ativado por padrão e a saída contém
<think>
Tags, adequadas para resolver problemas matemáticos ou lógicos. Por exemplo, digite "prove Fermat's Little Theorem" e o modelo gerará um processo de raciocínio passo a passo. - processamento de contexto longoSuporte a 256 mil tokens, adequado para a análise de documentos longos. Após a entrada de um texto longo, o modelo pode extrair informações importantes ou responder a perguntas relevantes.
- Suporte à programaçãoDigite um trecho de código ou uma pergunta, como "Escreva um algoritmo de classificação em Python", e o modelo gera o código completo e explica a lógica.
- Chamada de ferramentaCom o Qwen-Agent, os modelos podem invocar ferramentas externas, como a obtenção de tempo ou a execução de solicitações da Web, simplificando tarefas complexas.
advertência
- No modo de inferência, recomenda-se um comprimento de contexto ≥ 131072 para garantir o desempenho.
- Evite usar a decodificação agressiva, que pode resultar em uma saída duplicada.
- Para operação local, é recomendável usar o Ollama ou LMStudio, mas o comprimento do contexto precisa ser ajustado para evitar problemas de looping.
cenário do aplicativo
- pesquisa acadêmica
Os pesquisadores podem usar o modelo para analisar documentos longos, extrair argumentos importantes ou validar fórmulas matemáticas. Seu comprimento de contexto de 256K permite o processamento de documentos inteiros e é adequado para revisões de literatura ou análises entre capítulos. - Desenvolvimento de programação
Os desenvolvedores podem usar modelos para gerar código, depurar programas ou otimizar algoritmos. Por exemplo, insira um requisito de algoritmo complexo e o modelo fornecerá o código e explicará as etapas de implementação. - tradução multilíngue
As empresas podem usar o modelo para tradução de documentos multilíngues ou processamento de instruções, com suporte para mais de 100 idiomas, adequado para tarefas de comunicação ou localização internacionais. - Suporte educacional
Alunos e professores podem usar modelos para responder a perguntas matemáticas e científicas ou para gerar materiais de instrução. O poder de raciocínio dos modelos ajuda a explicar conceitos complexos.
QA
- Quais estruturas de inferência são compatíveis com o modelo?
Suporte para transformadores, sglang, vLLM, Ollama, LMStudio e llama.cpp. Recomenda-se a versão mais recente para garantir a compatibilidade. - Como faço para lidar com problemas de falta de memória?
Reduza o comprimento do contexto para 32768 ou use a versão FP8 para reduzir os requisitos de memória. Vários recursos de GPU também podem ser alocados por meio do parâmetro tensor-parallel-size. - Como faço para ativar o recurso de chamada de ferramenta?
Usando a Ferramenta de configuração do Qwen-Agent, defina o MCP ou ferramentas integradas, o modelo pode chamar automaticamente funções externas.