Soluções práticas para o problema de memória insuficiente
A memória insuficiente é um desafio comum ao executar localmente modelos de idiomas grandes, como o Qwen3-235B-A22B-Thinking-2507. Veja a seguir uma variedade de soluções eficazes:
- Versão quantificada com FP8O modelo oferece uma versão FP8 (~220,20GB), que reduz os requisitos de memória em quase 50% em comparação com a versão BF16 (437,91GB), exigindo apenas ~30GB de memória
- Ajuste do comprimento do contextoContexto padrão de 256K: o contexto padrão de 256K consome muita memória, que pode ser reduzida para 32768 tokens para reduzir significativamente o uso da memória
- Uso de uma estrutura de raciocínio eficienteRecomendamos o uso do vLLM (≥0.8.5) ou do sglang (≥0.4.6.post1), pois eles otimizam o gerenciamento de memória e a eficiência da inferência
- Paralelismo multi-GPUDistribua o modelo em várias GPUs com o parâmetro tensor-parallel-size
- Tecnologia de descarregamento da CPU: alguns cálculos podem ser transferidos para a memória do sistema usando estruturas como llama.cpp
Na prática, é recomendável tentar primeiro os seguintes comandos para reduzir os requisitos de memória:
python -m sglang.launch_server -model-path Qwen/Qwen3-235B-A22B-Thinking-2507 -tp 8 -context-length 32768
Essa resposta foi extraída do artigoQwen3-235B-A22B-Thinking-2507: um modelo de linguagem grande para apoiar o raciocínio complexoO