As etapas a seguir são necessárias para implantar o Qwen3-235B-A22B-Thinking-2507:
- Preparação ambientalRequisitos de hardware: 88 GB de memória de vídeo para a versão BF16 ou 30 GB de memória de vídeo para a versão FP8. Os requisitos de software incluem Python 3.8+, PyTorch com suporte a CUDA e a biblioteca de transformadores da Hugging Face (versão ≥ 4.51.0).
- Download do modelo: Uso
huggingface-cli download Qwen/Qwen3-235B-A22B-Thinking-2507
Faça o download dos arquivos do modelo (cerca de 437,91 GB para a versão BF16 e 220,20 GB para a versão FP8). - Modelos de carregamentoUse transformadores para carregar o modelo:
AutoModelForCausalLM.from_pretrained
Você pode especificartorch_dtype="auto"
responder cantandodevice_map="auto"
Alocação automática de recursos. - Configuração otimizadaPara execuções locais, o desempenho da inferência pode ser otimizado com a redução do comprimento do contexto (por exemplo, 32768 tokens) ou com o uso da estrutura sglang/vLLM.
Para a funcionalidade de invocação de ferramenta, você também precisa configurar o Qwen-Agent para definir a interface da ferramenta.
Essa resposta foi extraída do artigoQwen3-235B-A22B-Thinking-2507: um modelo de linguagem grande para apoiar o raciocínio complexoO