O vllm-cli tem quatro cenários de configuração otimizados incorporados, especificamente ajustados para diferentes cenários de uso:
- padrãoConfiguração padrão com parâmetros inteligentes recomendados pelo vLLM, adequados para a maioria dos modelos e cenários de uso geral
- moe_optimisedOtimizado para o modelo Mixed Expert (MoE), com parâmetros ajustados relacionados à seleção e ao roteamento de especialistas
- alta_produçãoConfiguração para maximizar a taxa de transferência de solicitações, adequada para cenários que exigem invocação de alta frequência do modelo
- baixa_memóriaConfigurações otimizadas para memória, com tecnologias como a quantificação de FP8 ativada automaticamente, para ambientes de hardware com memória de GPU limitada
Esses programas predefinidos podem ser acessados por meio do--profile
Chamada rápida de parâmetros. No desenvolvimento prático, é recomendável tentar primeiro ostandard
e, em seguida, selecionar outras opções de otimização ou fazer ajustes de parâmetros personalizados de acordo com necessidades específicas.
Essa resposta foi extraída do artigovLLM CLI: ferramenta de linha de comando para implantação de modelos de idiomas grandes com o vLLMO