Posição atual:fig. início " Ferramentas profissionais de IA

vLLM CLI: ferramenta de linha de comando para implantação de modelos de idiomas grandes com o vLLM

2025-08-20

Ferramentas profissionais de IA/Biblioteca de ferramentas de IA/Cliente de PC/modelo de implantação

1.1 K 18

fazer uma cópia de

Link diretoVisualização móvel

O vllm-cli é um arquivo para o vLLM Uma ferramenta de interface de linha de comando projetada para facilitar a implantação e o gerenciamento de grandes modelos de linguagem. A ferramenta oferece uma interface de menu interativa e um modo de linha de comando tradicional. Ela permite que os usuários gerenciem modelos locais e remotos, usem esquemas de configuração predefinidos ou personalizados e monitorem o status operacional do servidor de modelos em tempo real. Para os desenvolvedores que precisam testar rapidamente diferentes modelos localmente ou integrar serviços de modelos em scripts de automação, o vllm-cli oferece uma solução eficiente e fácil de usar. Ele também possui verificação integrada de informações do sistema e visualização de registros para ajudar os usuários a localizar rapidamente os problemas quando os encontrarem.

Lista de funções

modo interativoInterface de terminal: fornece uma interface de terminal rica em recursos que os usuários podem navegar pelos menus, diminuindo a barreira de uso.
modo de linha de comandoSuporte para instruções diretas de linha de comando para facilitar a integração em scripts de automação e fluxos de trabalho.
gerenciamento de modelosCapacidade de descobrir e gerenciar automaticamente arquivos de modelo armazenados localmente.
Suporte remoto ao modeloNão há necessidade de fazer o download prévio, você pode carregar e executar modelos diretamente do HuggingFace Hub.
Programa de configuraçãoConfiguração: Uma variedade de configurações otimizadas para diferentes cenários (por exemplo, alta taxa de transferência, pouca memória) é incorporada, e também há suporte para configurações definidas pelo usuário.
Monitoramento do servidorStatus do servidor vLLM: Você pode visualizar o status do servidor vLLM em tempo real, incluindo o uso da GPU e informações de registro.
Informações do sistemaCompatibilidade de GPU, memória e CUDA: Verifica e exibe a compatibilidade de GPU, memória e CUDA.
Visualizador de registrosQuando o servidor não consegue iniciar, é fácil visualizar o arquivo de registro completo para solucionar os erros.
Suporte a LoRAPermite que um ou mais adaptadores LoRA sejam montados enquanto o modelo básico é carregado.

Usando a Ajuda

O vllm-cli foi projetado para simplificar o processo de implantação de grandes modelos de linguagem com o vLLM. Abaixo estão as etapas detalhadas de instalação e uso para ajudá-lo a começar rapidamente.

1. instalação

condição prévia
Antes de instalar, verifique se o sistema atende às seguintes condições:

Python 3.11 ou posterior.
Uma GPU NVIDIA habilitada para CUDA.
O pacote principal do vLLM foi instalado.

Instalação a partir do PyPI
A maneira mais fácil de instalar é a partir dos repositórios oficiais do PyPI via pip:

pip install vllm-cli

Compilar e instalar a partir da fonte
Se quiser experimentar os recursos mais recentes, você pode optar por compilá-los e instalá-los a partir da fonte do GitHub.
Primeiro, clone o repositório do projeto localmente:

git clone https://github.com/Chen-zexi/vllm-cli.git
cd vllm-cli

Em seguida, instale as bibliotecas de dependência necessárias. Recomenda-se realizar essas operações em um ambiente virtual limpo.

# 安装依赖
pip install -r requirements.txt
pip install hf-model-tool
# 以开发者模式安装
pip install -e .

2 Métodos de uso

O vllm-cli oferece dois modos de operação: uma interface interativa e instruções de linha de comando.

modo interativo

Essa é a melhor maneira de começar para os iniciantes. Comece digitando o seguinte comando diretamente no terminal:

vllm-cli

Após a inicialização, você verá uma tela de boas-vindas com opções orientadas por menus que o guiarão por todas as etapas de seleção do modelo, configuração e inicialização do serviço.

Seleção de modelosA interface lista os modelos descobertos localmente e os modelos remotos no HuggingFace Hub. Você pode selecionar diretamente um para implantação.
Início rápidoSe você já o tiver executado com êxito uma vez, esse recurso carregará automaticamente a última configuração para inicialização com um clique.
Configuração personalizadaEntre no menu Advanced Configuration (Configuração avançada), onde você pode ajustar dezenas de parâmetros do vLLM, incluindo o método de quantificação, o tamanho do tensor paralelo e muito mais.
Monitoramento do servidorObservação: Depois que o serviço for iniciado, você poderá ver a utilização da GPU em tempo real, o status do servidor e os fluxos de registro na interface de monitoramento.

modo de linha de comando

O modo de linha de comando é adequado para scripts de automação e usuários avançados. Os principais comandos são serve.

uso básico
Inicie um serviço modelo usando a configuração padrão:

vllm-cli serve <MODEL_NAME>

Entre eles <MODEL_NAME> é o nome do modelo, por exemplo Qwen/Qwen2-1.5B-Instruct.

Uso de configurações predefinidas
Você pode usar o --profile para especificar uma configuração de otimização integrada. Por exemplo, use o parâmetro high_throughput para obter o máximo de desempenho:

vllm-cli serve <MODEL_NAME> --profile high_throughput
```内置的配置方案包括：
- `standard`: 智能默认值的最小化配置。
- `moe_optimized`: 为 MoE（混合专家）模型优化。
- `high_throughput`: 追求最大请求吞吐量的性能配置。
- `low_memory`: 适用于内存受限环境的配置，例如启用 FP8 量化。
**传递自定义参数**
你也可以直接在命令行中传递任意 vLLM 支持的参数。例如，同时指定 AWQ 量化和张量并行数为2：
```bash
vllm-cli serve <MODEL_NAME> --quantization awq --tensor-parallel-size 2

Outros comandos comuns

Lista de modelos disponíveis:
```
vllm-cli models
```
Exibição de informações do sistema:
```
vllm-cli info
```
Verificação de serviços em execução:
```
vllm-cli status
```
Interromper um serviço (é necessário especificar o número da porta).
```
vllm-cli stop --port 8000
```

3. arquivos de configuração

O arquivo de configuração do vllm-cli é armazenado no diretório do usuário do ~/.config/vllm-cli/ Médio.

config.yamlArquivo de configuração principal: O arquivo de configuração principal.
user_profiles.jsonEsquemas de configuração definidos pelo usuário.
cache.jsonUsado para armazenar em cache listas de modelos e informações do sistema para melhorar o desempenho.

Ao encontrar problemas, como falhas no carregamento de modelos, a ferramenta oferece a opção de visualizar os registros diretamente, o que é muito útil para a depuração.

cenário do aplicativo

Desenvolvimento local e avaliação de modelos
Pesquisadores e desenvolvedores podem implementar e alternar rapidamente entre diferentes modelos de linguagem grandes para validação de algoritmos, testes funcionais e avaliação de desempenho em seus ambientes locais, sem precisar escrever códigos complexos de implementação de servidor.
Scripts de implantação automatizados
Usando seu modo de linha de comando, o vllm-cli pode ser integrado aos processos de CI/CD ou a scripts de operações automatizados. Por exemplo, quando um novo modelo é treinado, um script pode ser acionado automaticamente para implantar e avaliar o modelo.
Ensino e demonstração
Em cenários de ensino ou demonstração de produtos, uma interface interativa pode ser usada para iniciar facilmente um grande serviço de modelagem de linguagem e demonstrar visualmente os efeitos do modelo para outras pessoas, sem a necessidade de se preocupar com os complexos detalhes de configuração subjacentes.
Backend de aplicativo leve
Para algumas ferramentas internas ou aplicativos leves, você pode usar o vllm-cli para criar rapidamente um backend estável para raciocinar sobre grandes modelos de linguagem para chamadas de pequena escala.

QA

Que tipos de hardware são compatíveis com o vllm-cli?
Atualmente, o vllm-cli suporta principalmente GPUs NVIDIA com CUDA. O suporte para GPUs AMD ainda está no roteiro de desenvolvimento.
O que devo fazer se um modelo não for carregado?
Em primeiro lugar, use o recurso de visualização de registros fornecido pela ferramenta para verificar se há mensagens de erro detalhadas, que geralmente indicam qual é o problema. Em segundo lugar, verifique se o modelo da GPU e a versão do vLLM são compatíveis com o modelo. Por fim, verifique a documentação oficial do vLLM para ver se o modelo requer parâmetros de inicialização especiais, como métodos de quantificação específicos ou confiança no código remoto.
Como essa ferramenta descobriu meu modelo HuggingFace local?
O vllm-cli tem uma integração interna chamada hf-model-tool A ferramenta HuggingFace é uma ferramenta auxiliar para o HuggingFace. Ela verifica automaticamente o diretório de cache padrão do HuggingFace, bem como outros diretórios de modelo configurados manualmente pelo usuário, para descobrir e gerenciar todos os arquivos de modelo armazenados localmente.
Posso usá-lo sem uma GPU?
Não. O vllm-cli depende do mecanismo vLLM, que foi projetado para executar modelos de linguagem grandes com eficiência em GPUs e, portanto, deve ter um hardware de GPU NVIDIA com suporte a CUDA.

vLLM CLI: ferramenta de linha de comando para implantação de modelos de idiomas grandes com o vLLM

Lista de funções

Usando a Ajuda

1. instalação

2 Métodos de uso

modo interativo

modo de linha de comando

3. arquivos de configuração

cenário do aplicativo

QA

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

vLLM CLI: ferramenta de linha de comando para implantação de modelos de idiomas grandes com o vLLM

Lista de funções

Usando a Ajuda

1. instalação

2 Métodos de uso

modo interativo

modo de linha de comando

3. arquivos de configuração

cenário do aplicativo

QA

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida