Guia completo para implantação local
A Jan-nano oferece um processo de implementação local padronizado que é dividido em quatro etapas principais:
- Preparação ambientalAmbiente Python 3.8+ e Git necessários; recomenda-se um ambiente virtual isolado (venv)
- Instalação dependenteInstale os transformadores e as bibliotecas vLLM via pip para obter o melhor desempenho de inferência!
- Download do modeloUse a ferramenta huggingface-cli para obter modelos oficiais ou versões quantificadas de terceiros (por exemplo, o formato GGUF de Bartowski)
- ativação do serviçoO motor vLLM é ligado com cuidado:
- A versão básica usa parâmetros padrão
--enable-auto-tool-choice - A versão de 128k requer configuração
--rope-scalingOs parâmetros suportam contextos estendidos
- A versão básica usa parâmetros padrão
Exemplo típico de implantação:vllm serve Menlo/Jan-nano --port 1234 --enable-auto-tool-choice
Os testes de verificação podem ser realizados por meio da API REST ou da biblioteca de solicitações Python após a implantação. Observação especial: você precisa escolher o nível de quantização apropriado de acordo com o tamanho da memória de vídeo, e a versão Q4_K_M é recomendada para dispositivos de 8 GB.
Essa resposta foi extraída do artigoJan-nano: um modelo leve e eficiente para geração de textoO































