Como implantar o modelo Qwen3-235B-A22B-Thinking-2507?

2025-08-20

355

As etapas a seguir são necessárias para implantar o Qwen3-235B-A22B-Thinking-2507:

Preparação ambientalRequisitos de hardware: 88 GB de memória de vídeo para a versão BF16 ou 30 GB de memória de vídeo para a versão FP8. Os requisitos de software incluem Python 3.8+, PyTorch com suporte a CUDA e a biblioteca de transformadores da Hugging Face (versão ≥ 4.51.0).
Download do modelo: Usohuggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507Faça o download dos arquivos do modelo (cerca de 437,91 GB para a versão BF16 e 220,20 GB para a versão FP8).
Modelos de carregamentoUse transformadores para carregar o modelo:AutoModelForCausalLM.from_pretrainedVocê pode especificartorch_dtype="auto"responder cantandodevice_map="auto"Alocação automática de recursos.
Configuração otimizadaPara execuções locais, o desempenho da inferência pode ser otimizado com a redução do comprimento do contexto (por exemplo, 32768 tokens) ou com o uso da estrutura sglang/vLLM.

Para a funcionalidade de invocação de ferramenta, você também precisa configurar o Qwen-Agent para definir a interface da ferramenta.

Ferramenta de IA da estação de consulta rápida