Contramedidas para memória de vídeo insuficiente
As seguintes estratégias podem ser adotadas para lidar com o problema de memória de vídeo insuficiente:
- Use a configuração low_memory:Habilite esquemas de otimização de memória por meio de -profile low_memory para habilitar automaticamente técnicas de economia de memória, como a quantificação de FP8
- Quantificação do modelo:Especificar manualmente a quantização awq/squeezellm etc.
- Ajuste a fatia do modelo:Diminua o valor do parâmetro -tensor-parallel-size (definido como 1 para uma única GPU)
- Estratégia de desinstalação:Configuração do parâmetro -swap-space para aproveitar a expansão da memória do sistema
Etapas de diagnóstico: quando houver falha no carregamento, verifique imediatamente se há códigos de erro específicos usando o visualizador de registro fornecido pelo vllm-cli. Se for um erro OOM, use o vllm-cli info para verificar primeiro a memória de vídeo disponível e, em seguida, escolha reduzir adequadamente a especificação do modelo ou ativar um esquema de quantificação mais forte. Para modelos no HuggingFace Hub, tome cuidado para escolher a ramificação apropriada (por exemplo, escolha a versão de quantificação de 4 bits).
Essa resposta foi extraída do artigovLLM CLI: ferramenta de linha de comando para implantação de modelos de idiomas grandes com o vLLMO