Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O vllm-cli é uma ferramenta de interface de linha de comando para o vLLM que facilita muito a implantação e o gerenciamento de grandes modelos de linguagem. A ferramenta oferece uma interface de menu interativa e um modo de linha de comando tradicional. Ela permite que os usuários gerenciem modelos locais e remotos, usem cenários de configuração predefinidos ou personalizados e monitorem o status operacional do servidor de modelos em tempo real. Para os desenvolvedores que precisam testar rapidamente diferentes modelos localmente ou integrar serviços de modelos em scripts de automação, o vllm-cli oferece uma solução eficiente e fácil de usar. Ele também possui verificação integrada de informações do sistema e visualização de registros para ajudar os usuários a localizar rapidamente os problemas quando os encontrarem.

 

Lista de funções

  • modo interativoInterface de terminal: fornece uma interface de terminal rica em recursos que os usuários podem navegar pelos menus, diminuindo a barreira de uso.
  • modo de linha de comandoSuporte para instruções diretas de linha de comando para facilitar a integração em scripts de automação e fluxos de trabalho.
  • gerenciamento de modelosCapacidade de descobrir e gerenciar automaticamente arquivos de modelo armazenados localmente.
  • Suporte remoto ao modeloNão há necessidade de fazer o download prévio, você pode carregar e executar modelos diretamente do HuggingFace Hub.
  • Programa de configuraçãoConfiguração: Uma variedade de configurações otimizadas para diferentes cenários (por exemplo, alta taxa de transferência, pouca memória) é incorporada, e também há suporte para configurações definidas pelo usuário.
  • Monitoramento do servidorStatus do servidor vLLM: Você pode visualizar o status do servidor vLLM em tempo real, incluindo o uso da GPU e informações de registro.
  • Informações do sistemaCompatibilidade de GPU, memória e CUDA: Verifica e exibe a compatibilidade de GPU, memória e CUDA.
  • Visualizador de registrosQuando o servidor não consegue iniciar, é fácil visualizar o arquivo de registro completo para solucionar os erros.
  • Suporte a LoRAPermite que um ou mais adaptadores LoRA sejam montados enquanto o modelo básico é carregado.

Usando a Ajuda

O vllm-cli foi projetado para simplificar o processo de implantação de grandes modelos de linguagem com o vLLM. Abaixo estão as etapas detalhadas de instalação e uso para ajudá-lo a começar rapidamente.

1. instalação

condição prévia
Antes de instalar, verifique se o sistema atende às seguintes condições:

  • Python 3.11 ou posterior.
  • Uma GPU NVIDIA habilitada para CUDA.
  • O pacote principal do vLLM foi instalado.

Instalação a partir do PyPI
A maneira mais fácil de instalar é a partir dos repositórios oficiais do PyPI via pip:

pip install vllm-cli

Compilar e instalar a partir da fonte
Se quiser experimentar os recursos mais recentes, você pode optar por compilá-los e instalá-los a partir da fonte do GitHub.
Primeiro, clone o repositório do projeto localmente:

git clone https://github.com/Chen-zexi/vllm-cli.git
cd vllm-cli

Em seguida, instale as bibliotecas de dependência necessárias. Recomenda-se realizar essas operações em um ambiente virtual limpo.

# 安装依赖
pip install -r requirements.txt
pip install hf-model-tool
# 以开发者模式安装
pip install -e .

2 Métodos de uso

O vllm-cli oferece dois modos de operação: uma interface interativa e instruções de linha de comando.

modo interativo

Essa é a melhor maneira de começar para os iniciantes. Comece digitando o seguinte comando diretamente no terminal:

vllm-cli

Após a inicialização, você verá uma tela de boas-vindas com opções orientadas por menus que o guiarão por todas as etapas de seleção do modelo, configuração e inicialização do serviço.

  • Seleção de modelosA interface lista os modelos descobertos localmente e os modelos remotos no HuggingFace Hub. Você pode selecionar diretamente um para implantação.
  • Início rápidoSe você já o tiver executado com êxito uma vez, esse recurso carregará automaticamente a última configuração para inicialização com um clique.
  • Configuração personalizadaEntre no menu Advanced Configuration (Configuração avançada), onde você pode ajustar dezenas de parâmetros do vLLM, incluindo o método de quantificação, o tamanho do tensor paralelo e muito mais.
  • Monitoramento do servidorObservação: Depois que o serviço for iniciado, você poderá ver a utilização da GPU em tempo real, o status do servidor e os fluxos de registro na interface de monitoramento.

modo de linha de comando

O modo de linha de comando é adequado para scripts de automação e usuários avançados. Os principais comandos são serve.

uso básico
Inicie um serviço modelo usando a configuração padrão:

vllm-cli serve <MODEL_NAME>

Entre eles <MODEL_NAME> é o nome do modelo, por exemplo Qwen/Qwen2-1.5B-Instruct.

Uso de configurações predefinidas
Você pode usar o --profile para especificar uma configuração de otimização integrada. Por exemplo, use o parâmetro high_throughput para obter o máximo de desempenho:

vllm-cli serve <MODEL_NAME> --profile high_throughput
```内置的配置方案包括:
- `standard`: 智能默认值的最小化配置。
- `moe_optimized`: 为 MoE(混合专家)模型优化。
- `high_throughput`: 追求最大请求吞吐量的性能配置。
- `low_memory`: 适用于内存受限环境的配置,例如启用 FP8 量化。
**传递自定义参数**
你也可以直接在命令行中传递任意 vLLM 支持的参数。例如,同时指定 AWQ 量化和张量并行数为2:
```bash
vllm-cli serve <MODEL_NAME> --quantization awq --tensor-parallel-size 2

Outros comandos comuns

  • Lista de modelos disponíveis:
    vllm-cli models
    
  • Exibição de informações do sistema:
    vllm-cli info
    
  • Verificação de serviços em execução:
    vllm-cli status
    
  • Interromper um serviço (é necessário especificar o número da porta).
    vllm-cli stop --port 8000
    

3. arquivos de configuração

O arquivo de configuração do vllm-cli é armazenado no diretório do usuário do ~/.config/vllm-cli/ Médio.

  • config.yamlArquivo de configuração principal: O arquivo de configuração principal.
  • user_profiles.jsonEsquemas de configuração definidos pelo usuário.
  • cache.jsonUsado para armazenar em cache listas de modelos e informações do sistema para melhorar o desempenho.

Ao encontrar problemas, como falhas no carregamento de modelos, a ferramenta oferece a opção de visualizar os registros diretamente, o que é muito útil para a depuração.

cenário do aplicativo

  1. Desenvolvimento local e avaliação de modelos
    Pesquisadores e desenvolvedores podem implementar e alternar rapidamente entre diferentes modelos de linguagem grandes para validação de algoritmos, testes funcionais e avaliação de desempenho em seus ambientes locais, sem precisar escrever códigos complexos de implementação de servidor.
  2. Scripts de implantação automatizados
    Usando seu modo de linha de comando, o vllm-cli pode ser integrado aos processos de CI/CD ou a scripts de operações automatizados. Por exemplo, quando um novo modelo é treinado, um script pode ser acionado automaticamente para implantar e avaliar o modelo.
  3. Ensino e demonstração
    Em cenários de ensino ou demonstração de produtos, uma interface interativa pode ser usada para iniciar facilmente um grande serviço de modelagem de linguagem e demonstrar visualmente os efeitos do modelo para outras pessoas, sem a necessidade de se preocupar com os complexos detalhes de configuração subjacentes.
  4. Backend de aplicativo leve
    Para algumas ferramentas internas ou aplicativos leves, você pode usar o vllm-cli para criar rapidamente um backend estável para raciocinar sobre grandes modelos de linguagem para chamadas de pequena escala.

QA

  1. Que tipos de hardware são compatíveis com o vllm-cli?
    Atualmente, o vllm-cli suporta principalmente GPUs NVIDIA com CUDA. O suporte para GPUs AMD ainda está no roteiro de desenvolvimento.
  2. O que devo fazer se um modelo não for carregado?
    Em primeiro lugar, use o recurso de visualização de registros fornecido pela ferramenta para verificar se há mensagens de erro detalhadas, que geralmente indicam qual é o problema. Em segundo lugar, verifique se o modelo da GPU e a versão do vLLM são compatíveis com o modelo. Por fim, verifique a documentação oficial do vLLM para ver se o modelo requer parâmetros de inicialização especiais, como métodos de quantificação específicos ou confiança no código remoto.
  3. Como essa ferramenta descobriu meu modelo HuggingFace local?
    O vllm-cli tem uma integração interna chamada hf-model-tool A ferramenta HuggingFace é uma ferramenta auxiliar para o HuggingFace. Ela verifica automaticamente o diretório de cache padrão do HuggingFace, bem como outros diretórios de modelo configurados manualmente pelo usuário, para descobrir e gerenciar todos os arquivos de modelo armazenados localmente.
  4. Posso usá-lo sem uma GPU?
    Não. O vllm-cli depende do mecanismo vLLM, que foi projetado para executar modelos de linguagem grandes com eficiência em GPUs e, portanto, deve ter um hardware de GPU NVIDIA com suporte a CUDA.
0Marcado
0Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil