O modo de linha de comando do vllm-cli facilita muito a implementação automatizada com as seguintes etapas básicas:
- Comandos básicos de implantação::
vllm-cli serve <MODEL_NAME>
Um exemplo é a implantação do modelo Qwen:vllm-cli serve Qwen/Qwen2-1.5B-Instruct
- Uso de configurações predefinidas::
vllm-cli serve <MODEL_NAME> --profile high_throughput
- Parâmetros personalizados::
Suporta a passagem de parâmetros arbitrários compatíveis com vLLM, por exemplo:vllm-cli serve <MODEL_NAME> --quantization awq --tensor-parallel-size 2
- Verificar o status do serviço::
fazer uso devllm-cli status
Verificação dos serviços em execução - Descontinuação de serviços::
vllm-cli stop --port 8000
Para facilitar a integração do script, esses comandos suportam o modo silencioso (--quiet
) e o formato de saída JSON (--json
).
Essa resposta foi extraída do artigovLLM CLI: ferramenta de linha de comando para implantação de modelos de idiomas grandes com o vLLMO