O vllm-cli é uma ferramenta de interface de linha de comando para o vLLM que facilita muito a implantação e o gerenciamento de grandes modelos de linguagem. A ferramenta oferece uma interface de menu interativa e um modo de linha de comando tradicional. Ela permite que os usuários gerenciem modelos locais e remotos, usem cenários de configuração predefinidos ou personalizados e monitorem o status operacional do servidor de modelos em tempo real. Para os desenvolvedores que precisam testar rapidamente diferentes modelos localmente ou integrar serviços de modelos em scripts de automação, o vllm-cli oferece uma solução eficiente e fácil de usar. Ele também possui verificação integrada de informações do sistema e visualização de registros para ajudar os usuários a localizar rapidamente os problemas quando os encontrarem.
Lista de funções
- modo interativoInterface de terminal: fornece uma interface de terminal rica em recursos que os usuários podem navegar pelos menus, diminuindo a barreira de uso.
- modo de linha de comandoSuporte para instruções diretas de linha de comando para facilitar a integração em scripts de automação e fluxos de trabalho.
- gerenciamento de modelosCapacidade de descobrir e gerenciar automaticamente arquivos de modelo armazenados localmente.
- Suporte remoto ao modeloNão há necessidade de fazer o download prévio, você pode carregar e executar modelos diretamente do HuggingFace Hub.
- Programa de configuraçãoConfiguração: Uma variedade de configurações otimizadas para diferentes cenários (por exemplo, alta taxa de transferência, pouca memória) é incorporada, e também há suporte para configurações definidas pelo usuário.
- Monitoramento do servidorStatus do servidor vLLM: Você pode visualizar o status do servidor vLLM em tempo real, incluindo o uso da GPU e informações de registro.
- Informações do sistemaCompatibilidade de GPU, memória e CUDA: Verifica e exibe a compatibilidade de GPU, memória e CUDA.
- Visualizador de registrosQuando o servidor não consegue iniciar, é fácil visualizar o arquivo de registro completo para solucionar os erros.
- Suporte a LoRAPermite que um ou mais adaptadores LoRA sejam montados enquanto o modelo básico é carregado.
Usando a Ajuda
O vllm-cli foi projetado para simplificar o processo de implantação de grandes modelos de linguagem com o vLLM. Abaixo estão as etapas detalhadas de instalação e uso para ajudá-lo a começar rapidamente.
1. instalação
condição prévia
Antes de instalar, verifique se o sistema atende às seguintes condições:
- Python 3.11 ou posterior.
- Uma GPU NVIDIA habilitada para CUDA.
- O pacote principal do vLLM foi instalado.
Instalação a partir do PyPI
A maneira mais fácil de instalar é a partir dos repositórios oficiais do PyPI via pip:
pip install vllm-cli
Compilar e instalar a partir da fonte
Se quiser experimentar os recursos mais recentes, você pode optar por compilá-los e instalá-los a partir da fonte do GitHub.
Primeiro, clone o repositório do projeto localmente:
git clone https://github.com/Chen-zexi/vllm-cli.git
cd vllm-cli
Em seguida, instale as bibliotecas de dependência necessárias. Recomenda-se realizar essas operações em um ambiente virtual limpo.
# 安装依赖
pip install -r requirements.txt
pip install hf-model-tool
# 以开发者模式安装
pip install -e .
2 Métodos de uso
O vllm-cli oferece dois modos de operação: uma interface interativa e instruções de linha de comando.
modo interativo
Essa é a melhor maneira de começar para os iniciantes. Comece digitando o seguinte comando diretamente no terminal:
vllm-cli
Após a inicialização, você verá uma tela de boas-vindas com opções orientadas por menus que o guiarão por todas as etapas de seleção do modelo, configuração e inicialização do serviço.
- Seleção de modelosA interface lista os modelos descobertos localmente e os modelos remotos no HuggingFace Hub. Você pode selecionar diretamente um para implantação.
- Início rápidoSe você já o tiver executado com êxito uma vez, esse recurso carregará automaticamente a última configuração para inicialização com um clique.
- Configuração personalizadaEntre no menu Advanced Configuration (Configuração avançada), onde você pode ajustar dezenas de parâmetros do vLLM, incluindo o método de quantificação, o tamanho do tensor paralelo e muito mais.
- Monitoramento do servidorObservação: Depois que o serviço for iniciado, você poderá ver a utilização da GPU em tempo real, o status do servidor e os fluxos de registro na interface de monitoramento.
modo de linha de comando
O modo de linha de comando é adequado para scripts de automação e usuários avançados. Os principais comandos são serve
.
uso básico
Inicie um serviço modelo usando a configuração padrão:
vllm-cli serve <MODEL_NAME>
Entre eles <MODEL_NAME>
é o nome do modelo, por exemplo Qwen/Qwen2-1.5B-Instruct
.
Uso de configurações predefinidas
Você pode usar o --profile
para especificar uma configuração de otimização integrada. Por exemplo, use o parâmetro high_throughput
para obter o máximo de desempenho:
vllm-cli serve <MODEL_NAME> --profile high_throughput
```内置的配置方案包括:
- `standard`: 智能默认值的最小化配置。
- `moe_optimized`: 为 MoE(混合专家)模型优化。
- `high_throughput`: 追求最大请求吞吐量的性能配置。
- `low_memory`: 适用于内存受限环境的配置,例如启用 FP8 量化。
**传递自定义参数**
你也可以直接在命令行中传递任意 vLLM 支持的参数。例如,同时指定 AWQ 量化和张量并行数为2:
```bash
vllm-cli serve <MODEL_NAME> --quantization awq --tensor-parallel-size 2
Outros comandos comuns
- Lista de modelos disponíveis:
vllm-cli models
- Exibição de informações do sistema:
vllm-cli info
- Verificação de serviços em execução:
vllm-cli status
- Interromper um serviço (é necessário especificar o número da porta).
vllm-cli stop --port 8000
3. arquivos de configuração
O arquivo de configuração do vllm-cli é armazenado no diretório do usuário do ~/.config/vllm-cli/
Médio.
config.yaml
Arquivo de configuração principal: O arquivo de configuração principal.user_profiles.json
Esquemas de configuração definidos pelo usuário.cache.json
Usado para armazenar em cache listas de modelos e informações do sistema para melhorar o desempenho.
Ao encontrar problemas, como falhas no carregamento de modelos, a ferramenta oferece a opção de visualizar os registros diretamente, o que é muito útil para a depuração.
cenário do aplicativo
- Desenvolvimento local e avaliação de modelos
Pesquisadores e desenvolvedores podem implementar e alternar rapidamente entre diferentes modelos de linguagem grandes para validação de algoritmos, testes funcionais e avaliação de desempenho em seus ambientes locais, sem precisar escrever códigos complexos de implementação de servidor. - Scripts de implantação automatizados
Usando seu modo de linha de comando, o vllm-cli pode ser integrado aos processos de CI/CD ou a scripts de operações automatizados. Por exemplo, quando um novo modelo é treinado, um script pode ser acionado automaticamente para implantar e avaliar o modelo. - Ensino e demonstração
Em cenários de ensino ou demonstração de produtos, uma interface interativa pode ser usada para iniciar facilmente um grande serviço de modelagem de linguagem e demonstrar visualmente os efeitos do modelo para outras pessoas, sem a necessidade de se preocupar com os complexos detalhes de configuração subjacentes. - Backend de aplicativo leve
Para algumas ferramentas internas ou aplicativos leves, você pode usar o vllm-cli para criar rapidamente um backend estável para raciocinar sobre grandes modelos de linguagem para chamadas de pequena escala.
QA
- Que tipos de hardware são compatíveis com o vllm-cli?
Atualmente, o vllm-cli suporta principalmente GPUs NVIDIA com CUDA. O suporte para GPUs AMD ainda está no roteiro de desenvolvimento. - O que devo fazer se um modelo não for carregado?
Em primeiro lugar, use o recurso de visualização de registros fornecido pela ferramenta para verificar se há mensagens de erro detalhadas, que geralmente indicam qual é o problema. Em segundo lugar, verifique se o modelo da GPU e a versão do vLLM são compatíveis com o modelo. Por fim, verifique a documentação oficial do vLLM para ver se o modelo requer parâmetros de inicialização especiais, como métodos de quantificação específicos ou confiança no código remoto. - Como essa ferramenta descobriu meu modelo HuggingFace local?
O vllm-cli tem uma integração interna chamadahf-model-tool
A ferramenta HuggingFace é uma ferramenta auxiliar para o HuggingFace. Ela verifica automaticamente o diretório de cache padrão do HuggingFace, bem como outros diretórios de modelo configurados manualmente pelo usuário, para descobrir e gerenciar todos os arquivos de modelo armazenados localmente. - Posso usá-lo sem uma GPU?
Não. O vllm-cli depende do mecanismo vLLM, que foi projetado para executar modelos de linguagem grandes com eficiência em GPUs e, portanto, deve ter um hardware de GPU NVIDIA com suporte a CUDA.