Programa de gerenciamento de modelos remotos
Para obter um gerenciamento eficiente de modelos remotos, os seguintes métodos podem ser usados:
- Execução direta:Inicie o serviço especificando diretamente a ID do modelo HuggingFace (por exemplo, Qwen/Qwen2-1.5B-Instruct)
- <strong]Utilização do cache:Reutilizar automaticamente o cache local do HuggingFace (padrão em ~/.cache/huggingface/)
- <strong]Controle de versão:A adição de um número de branch ou commit (por exemplo, @main) após o ID do modelo bloqueia uma versão específica
- <strong]Descoberta automática:Execute periodicamente vllm-cli models para atualizar a lista de modelos remotos
- <strong]Desconectar:Se o download for interrompido, você poderá executar novamente o comando para continuar o download.
Recomendações de melhores práticas:
- Em ambientes de produção, recomenda-se fazer o download do modelo localmente antes de implantá-lo para evitar flutuações na rede.
- Você pode especificar um diretório de cache personalizado usando a variável de ambiente HF_HOME.
- Para modelos grandes (>10 GB), é recomendável adicionar o parâmetro -download-dir para especificar o caminho de download.
- O HF_ENDPOINT pode ser definido para acelerar o download de fontes espelhadas em ambientes com restrições de rede.
Essa resposta foi extraída do artigovLLM CLI: ferramenta de linha de comando para implantação de modelos de idiomas grandes com o vLLMO