Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Qwen3-235B-A22B-Thinking-2507 é um modelo de linguagem em grande escala desenvolvido pela equipe do Alibaba Cloud Qwen, lançado em 25 de julho de 2025 e hospedado na plataforma Hugging Face. Ele se concentra em tarefas de raciocínio complexas, suporta comprimentos de contexto de até 256K (262.144) tokens e é adequado para lidar com raciocínio lógico, matemática, ciências, programação e tarefas acadêmicas. O modelo usa uma arquitetura Mixed Expert (MoE) com 235 bilhões de parâmetros e 22 bilhões de parâmetros ativados por inferência, equilibrando desempenho e eficiência. Ele se destaca entre os modelos de inferência de código aberto e é especialmente adequado para cenários de aplicativos que exigem raciocínio profundo e longo processamento contextual. Os usuários podem usá-lo com uma variedade de estruturas de inferência, como transformadores, sglang e vLLM Modelo de implantação que também oferece suporte a execuções locais.

Lista de funções

  • Oferece suporte à compreensão contextual ultralonga de 256 mil tokens para processar documentos complexos ou várias rodadas de diálogo.
  • Fornece um forte raciocínio lógico para problemas matemáticos, científicos e acadêmicos.
  • Experiência em tarefas de programação com suporte para geração e depuração de código.
  • Integração da funcionalidade de invocação de ferramentas para simplificar as interações com ferramentas externas por meio do Qwen-Agent.
  • Suporta mais de 100 idiomas e é adequado para tradução e acompanhamento de comandos multilíngues.
  • Uma versão quantificada do FP8 está disponível para reduzir os requisitos de hardware e otimizar o desempenho da inferência.
  • Compatível com várias estruturas de inferência, como transformers, sglang, vLLM e llama.cpp.

Usando a Ajuda

Instalação e implementação

Para usar o Qwen3-235B-A22B-Thinking-2507, você precisa preparar um ambiente de computação de alto desempenho devido aos seus grandes arquivos de modelo (cerca de 437,91 GB para a versão BF16 e 220,20 GB para a versão FP8). Veja a seguir as etapas detalhadas de instalação:

  1. Preparação ambiental::
    • Verifique se o hardware atende aos requisitos: recomenda-se 88 GB de memória de vídeo para a versão BF16 e cerca de 30 GB de memória de vídeo para a versão FP8.
    • Instale o Python 3.8+ e o PyTorch, um ambiente de GPU com suporte a CUDA é recomendado.
    • Instale a biblioteca de transformadores Hugging Face, versão ≥ 4.51.0, para evitar problemas de compatibilidade:
      pip install transformers>=4.51.0
      
    • Opcionalmente, instale o sglang (≥0.4.6.post1) ou o vLLM (≥0.8.5) para dar suporte ao raciocínio eficiente:
      pip install sglang>=0.4.6.post1 vllm>=0.8.5
      
  2. Modelos para download::
    • Baixe o modelo do repositório Hugging Face:
      huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507
      
    • Para a versão FP8, faça o download do Qwen3-235B-A22B-Thinking-2507-FP8:
      huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
      
  3. operação local::
    • Use transformadores para carregar o modelo:
      from transformers import AutoModelForCausalLM, AutoTokenizer
      model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"
      tokenizer = AutoTokenizer.from_pretrained(model_name)
      model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
      
    • Para evitar o esgotamento da memória, o comprimento do contexto pode ser reduzido (por exemplo, 32768 tokens):
      python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 --tp 8 --context-length 32768 --reasoning-parser deepseek-r1
      
  4. Configuração de chamada de ferramenta::
    • Simplifique as chamadas de ferramentas com o Qwen-Agent:
      from qwen_agent.agents import Assistant
      llm_cfg = {
      'model': 'qwen3-235b-a22b-thinking-2507',
      'model_type': 'qwen_dashscope'
      }
      tools = [{'mcpServers': {'time': {'command': 'uvx', 'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']}}}]
      bot = Assistant(llm=llm_cfg, function_list=tools)
      messages = [{'role': 'user', 'content': '获取当前时间'}]
      for responses in bot.run(messages=messages):
      print(responses)
      

Funções principais

  • inferência complexaO modelo tem o modo pensar ativado por padrão e a saída contém <think> Tags, adequadas para resolver problemas matemáticos ou lógicos. Por exemplo, digite "prove Fermat's Little Theorem" e o modelo gerará um processo de raciocínio passo a passo.
  • processamento de contexto longoSuporte a 256 mil tokens, adequado para a análise de documentos longos. Após a entrada de um texto longo, o modelo pode extrair informações importantes ou responder a perguntas relevantes.
  • Suporte à programaçãoDigite um trecho de código ou uma pergunta, como "Escreva um algoritmo de classificação em Python", e o modelo gera o código completo e explica a lógica.
  • Chamada de ferramentaCom o Qwen-Agent, os modelos podem invocar ferramentas externas, como a obtenção de tempo ou a execução de solicitações da Web, simplificando tarefas complexas.

advertência

  • No modo de inferência, recomenda-se um comprimento de contexto ≥ 131072 para garantir o desempenho.
  • Evite usar a decodificação rápida, que pode resultar em uma saída duplicada.
  • Para operação local, é recomendável usar o Ollama ou LMStudio, mas o comprimento do contexto precisa ser ajustado para evitar problemas de looping.

cenário do aplicativo

  1. pesquisa acadêmica
    Os pesquisadores podem usar o modelo para analisar documentos longos, extrair argumentos importantes ou validar fórmulas matemáticas. Seu comprimento de contexto de 256K permite o processamento de documentos inteiros e é adequado para revisões de literatura ou análises entre capítulos.
  2. Desenvolvimento de programação
    Os desenvolvedores podem usar o modelo para gerar código, depurar programas ou otimizar algoritmos. Por exemplo, insira um requisito de algoritmo complexo e o modelo fornecerá o código e explicará as etapas de implementação.
  3. tradução multilíngue
    As empresas podem usar o modelo para tradução de documentos multilíngues ou processamento de instruções, com suporte para mais de 100 idiomas, adequado para tarefas de comunicação ou localização internacionais.
  4. Suporte educacional
    Alunos e professores podem usar modelos para responder a perguntas matemáticas e científicas ou para gerar materiais de instrução. O poder de raciocínio dos modelos ajuda a explicar conceitos complexos.

QA

  1. Quais estruturas de inferência são compatíveis com o modelo?
    Suporte para transformadores, sglang, vLLM, Ollama, LMStudio e llama.cpp. Recomenda-se a versão mais recente para garantir a compatibilidade.
  2. Como faço para lidar com problemas de falta de memória?
    Reduza o comprimento do contexto para 32768 ou use a versão FP8 para reduzir os requisitos de memória. Vários recursos de GPU também podem ser alocados por meio do parâmetro tensor-parallel-size.
  3. Como faço para ativar o recurso de chamada de ferramenta?
    Usando a Ferramenta de configuração do Qwen-Agent, defina o MCP ou ferramentas integradas, o modelo pode chamar automaticamente funções externas.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil