Solução de carregamento Multi-LoRA
Ao usar o vllm-cli para carregar vários adaptadores LoRA ao mesmo tempo, recomenda-se o seguinte método:
- Combinações de parâmetros:Especifique vários caminhos de adaptador com o parâmetro -lora-modules no formato "name1:path1,name2:path2″.
- Planejamento de memória gráfica:Cada LoRA ocupa cerca de 200 a 500 MB de memória de vídeo; use o vllm-cli info para verificar a capacidade restante antes de carregar.
- <strong]Versão compatível:Certifique-se de que todos os adaptadores LoRA correspondam à versão do modelo básico
- Fusão ponderada:Os usuários avançados podem passar a configuração de peso por meio do parâmetro -lora-extra-config
Exemplo de operação:
vllm-cli serve base_model -lora-modules "adapter1:/path/lora1,adapter2:/path/lora2"
Solução de problemas: Se o carregamento falhar, verifique primeiro o README.md de cada LoRA para confirmar a compatibilidade e, em seguida, carregue cada adaptador individualmente para testar. Recomenda-se testar primeiro os LoRAs individuais no modo interativo antes de carregá-los em conjunto.
Essa resposta foi extraída do artigovLLM CLI: ferramenta de linha de comando para implantação de modelos de idiomas grandes com o vLLMO