Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Qwen3-235B-A22B-Thinking-2507 é um modelo de linguagem em grande escala desenvolvido pela equipe do Alibaba Cloud Qwen, lançado em 25 de julho de 2025 e hospedado na plataforma Hugging Face. Ele se concentra em tarefas de raciocínio complexas, suporta comprimentos de contexto de até 256K (262.144) tokens e é adequado para lidar com raciocínio lógico, matemática, ciências, programação e tarefas acadêmicas. O modelo usa uma arquitetura Mixed Expert (MoE) com 235 bilhões de parâmetros e 22 bilhões de parâmetros ativados por inferência, equilibrando desempenho e eficiência. Ele se destaca entre os modelos de inferência de código aberto e é especialmente adequado para cenários de aplicativos que exigem raciocínio profundo e longo processamento contextual. Os usuários podem usá-lo com uma variedade de estruturas de inferência, como transformadores, sglang e vLLM Modelo de implantação que também oferece suporte a execuções locais.

Lista de funções

  • Oferece suporte à compreensão contextual ultralonga de 256 mil tokens para processar documentos complexos ou várias rodadas de diálogo.
  • Fornece um forte raciocínio lógico para problemas matemáticos, científicos e acadêmicos.
  • Experiência em tarefas de programação, suporte à geração de código e depuração.
  • Integrar a funcionalidade de invocação de ferramentas para simplificar as interações de ferramentas externas por meio do Qwen-Agent.
  • Suporta mais de 100 idiomas e é adequado para tradução e acompanhamento de comandos multilíngues.
  • Uma versão quantificada do FP8 está disponível para reduzir os requisitos de hardware e otimizar o desempenho da inferência.
  • Compatível com várias estruturas de inferência, como transformers, sglang, vLLM e llama.cpp.

Usando a Ajuda

Instalação e implementação

Para usar o Qwen3-235B-A22B-Thinking-2507, você precisa preparar um ambiente de computação de alto desempenho devido aos seus grandes arquivos de modelo (cerca de 437,91 GB para a versão BF16 e 220,20 GB para a versão FP8). Veja a seguir as etapas detalhadas de instalação:

  1. Preparação ambiental::
    • Verifique se o hardware atende aos requisitos: recomenda-se 88 GB de memória de vídeo para a versão BF16 e cerca de 30 GB de memória de vídeo para a versão FP8.
    • Instale o Python 3.8+ e o PyTorch, um ambiente de GPU com suporte a CUDA é recomendado.
    • Instale a biblioteca de transformadores Hugging Face, versão ≥ 4.51.0, para evitar problemas de compatibilidade:
      pip install transformers>=4.51.0
      
    • Opcionalmente, instale o sglang (≥0.4.6.post1) ou o vLLM (≥0.8.5) para dar suporte ao raciocínio eficiente:
      pip install sglang>=0.4.6.post1 vllm>=0.8.5
      
  2. Modelos para download::
    • Baixe o modelo do repositório Hugging Face:
      huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507
      
    • Para a versão FP8, faça o download do Qwen3-235B-A22B-Thinking-2507-FP8:
      huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
      
  3. operação local::
    • Use transformadores para carregar o modelo:
      from transformers import AutoModelForCausalLM, AutoTokenizer
      model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"
      tokenizer = AutoTokenizer.from_pretrained(model_name)
      model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
      
    • Para evitar o esgotamento da memória, o comprimento do contexto pode ser reduzido (por exemplo, 32768 tokens):
      python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 --tp 8 --context-length 32768 --reasoning-parser deepseek-r1
      
  4. Configuração de chamada de ferramenta::
    • Simplifique as chamadas de ferramentas com o Qwen-Agent:
      from qwen_agent.agents import Assistant
      llm_cfg = {
      'model': 'qwen3-235b-a22b-thinking-2507',
      'model_type': 'qwen_dashscope'
      }
      tools = [{'mcpServers': {'time': {'command': 'uvx', 'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']}}}]
      bot = Assistant(llm=llm_cfg, function_list=tools)
      messages = [{'role': 'user', 'content': '获取当前时间'}]
      for responses in bot.run(messages=messages):
      print(responses)
      

Funções principais

  • inferência complexaO modelo tem o modo pensar ativado por padrão e a saída contém <think> Tags, adequadas para resolver problemas matemáticos ou lógicos. Por exemplo, digite "prove Fermat's Little Theorem" e o modelo gerará um processo de raciocínio passo a passo.
  • processamento de contexto longoSuporte a 256 mil tokens, adequado para a análise de documentos longos. Após a entrada de um texto longo, o modelo pode extrair informações importantes ou responder a perguntas relevantes.
  • Suporte à programaçãoDigite um trecho de código ou uma pergunta, como "Escreva um algoritmo de classificação em Python", e o modelo gera o código completo e explica a lógica.
  • Chamada de ferramentaCom o Qwen-Agent, os modelos podem invocar ferramentas externas, como a obtenção de tempo ou a execução de solicitações da Web, simplificando tarefas complexas.

advertência

  • No modo de inferência, recomenda-se um comprimento de contexto ≥ 131072 para garantir o desempenho.
  • Evite usar a decodificação agressiva, que pode resultar em uma saída duplicada.
  • Para operação local, é recomendável usar o Ollama ou LMStudio, mas o comprimento do contexto precisa ser ajustado para evitar problemas de looping.

cenário do aplicativo

  1. pesquisa acadêmica
    Os pesquisadores podem usar o modelo para analisar documentos longos, extrair argumentos importantes ou validar fórmulas matemáticas. Seu comprimento de contexto de 256K permite o processamento de documentos inteiros e é adequado para revisões de literatura ou análises entre capítulos.
  2. Desenvolvimento de programação
    Os desenvolvedores podem usar modelos para gerar código, depurar programas ou otimizar algoritmos. Por exemplo, insira um requisito de algoritmo complexo e o modelo fornecerá o código e explicará as etapas de implementação.
  3. tradução multilíngue
    As empresas podem usar o modelo para tradução de documentos multilíngues ou processamento de instruções, com suporte para mais de 100 idiomas, adequado para tarefas de comunicação ou localização internacionais.
  4. Suporte educacional
    Alunos e professores podem usar modelos para responder a perguntas matemáticas e científicas ou para gerar materiais de instrução. O poder de raciocínio dos modelos ajuda a explicar conceitos complexos.

QA

  1. Quais estruturas de inferência são compatíveis com o modelo?
    Suporte para transformadores, sglang, vLLM, Ollama, LMStudio e llama.cpp. Recomenda-se a versão mais recente para garantir a compatibilidade.
  2. Como faço para lidar com problemas de falta de memória?
    Reduza o comprimento do contexto para 32768 ou use a versão FP8 para reduzir os requisitos de memória. Vários recursos de GPU também podem ser alocados por meio do parâmetro tensor-parallel-size.
  3. Como faço para ativar o recurso de chamada de ferramenta?
    Usando a Ferramenta de configuração do Qwen-Agent, defina o MCP ou ferramentas integradas, o modelo pode chamar automaticamente funções externas.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil