Ao se deparar com uma falha no carregamento do modelo, você pode solucionar o problema seguindo estas etapas:
- Ver registro::
fazer uso devllm-cli
Visualização de registros incorporada ou apenas verifique os registros localizados no~/.cache/vllm-cli/logs/
Arquivos de registro em - Verificação da compatibilidade do sistema::
estar em movimentovllm-cli info
Verifique a compatibilidade do driver da GPU, da versão CUDA e do pacote principal do vLLM - Validação da integridade do modelo::
Para modelos locais, verifique se o arquivo está completo; para modelos remotos, tente baixar novamente o arquivo - Parâmetros de ajuste::
Tentativa de reduzir--tensor-parallel-size
ou ativar o parâmetro de quantificação--quantization awq
- Suporte à comunidade::
Verifique o problema oficial do vLLM e as discussões da comunidade, ou envie um novo problema para obter ajuda!
As causas comuns de falha incluem memória insuficiente da GPU, incompatibilidade da versão do vLLM com o modelo e problemas de conectividade de rede que impedem o download dos pesos do modelo. Para problemas de integração do LoRA, também é importante verificar se o arquivo do adaptador está configurado corretamente.
Essa resposta foi extraída do artigovLLM CLI: ferramenta de linha de comando para implantação de modelos de idiomas grandes com o vLLMO