Uma abordagem central para lidar com a implantação de dispositivos de memória gráfica de baixo custo
Otimizada para dispositivos de memória de vídeo de 8 GB, a Jan-nano oferece as seguintes soluções específicas:
- Usando a versão quantificada do GGUFNível de quantificação: Selecione o nível de quantificação Q4_K_M, que oferece o melhor equilíbrio entre desempenho e uso de recursos em dispositivos de 8 GB. Comandos de download via Hugging Face:
huggingface-cli download bartowski/Menlo_Jan-nano-GGUF --include "Menlo_Jan-nano-Q4_K_M.gguf" - Ajuste dos parâmetros de inferênciaLimite o número máximo de tokens na inicialização (por exemplo, o número máximo de tokens na inicialização).
--max-model-len 4096) e desativar recursos não essenciais (como reduzir otool-call-parser(número de concorrências) - Adoção da estratégia de fragmentaçãoPara tarefas de texto longo, envie fragmentos de texto em lotes por meio da API e, por fim, junte os resultados
As alternativas incluem escolher uma versão mais leve do Q3_K_XL (sujeito a tolerar uma degradação de desempenho de cerca de 5%) ou executar no modo CPU+RAM (sujeito a configurar opip install llama-cpp-python)
Essa resposta foi extraída do artigoJan-nano: um modelo leve e eficiente para geração de textoO































