Soluções de otimização da produtividade
Para melhorar a taxa de transferência do serviço de modelo vLLM, você pode fazer o seguinte:
- Uso de programas predefinidos:Ative a otimização de alto rendimento especificando diretamente o parâmetro -profile high_throughput
- Ajuste os parâmetros paralelos:Aumente o paralelismo do tensor com -tensor-parallel-size (requer suporte a várias GPUs)
- Otimização quantitativa:Adicione parâmetros de quantização, como -quantization awq, para reduzir o uso da memória de vídeo
- Otimização de lotes:Ajuste dos parâmetros -max-num-batched-tokens e -max-num-seqs
Observação: o aumento da taxa de transferência pode aumentar a latência e precisa ser equilibrado de acordo com o cenário real do aplicativo. Recomenda-se monitorar primeiro a utilização da GPU com o status vllm-cli e considerar a possibilidade de ativar a quantização FP8 (-quantization fp8) se for encontrado um gargalo na memória de vídeo. Para modelos de arquitetura MoE, a configuração moe_optimised deve ser usada em seu lugar.
Essa resposta foi extraída do artigovLLM CLI: ferramenta de linha de comando para implantação de modelos de idiomas grandes com o vLLMO