Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

Como otimizar o desempenho da implementação do Jan-nano em dispositivos com 8 GB de memória de vídeo?

2025-08-21 527
Link diretoVisualização móvel
qrcode

Uma abordagem central para lidar com a implantação de dispositivos de memória gráfica de baixo custo

Otimizada para dispositivos de memória de vídeo de 8 GB, a Jan-nano oferece as seguintes soluções específicas:

  • Usando a versão quantificada do GGUFNível de quantificação: Selecione o nível de quantificação Q4_K_M, que oferece o melhor equilíbrio entre desempenho e uso de recursos em dispositivos de 8 GB. Comandos de download via Hugging Face:huggingface-cli download bartowski/Menlo_Jan-nano-GGUF --include "Menlo_Jan-nano-Q4_K_M.gguf"
  • Ajuste dos parâmetros de inferênciaLimite o número máximo de tokens na inicialização (por exemplo, o número máximo de tokens na inicialização).--max-model-len 4096) e desativar recursos não essenciais (como reduzir otool-call-parser(número de concorrências)
  • Adoção da estratégia de fragmentaçãoPara tarefas de texto longo, envie fragmentos de texto em lotes por meio da API e, por fim, junte os resultados

As alternativas incluem escolher uma versão mais leve do Q3_K_XL (sujeito a tolerar uma degradação de desempenho de cerca de 5%) ou executar no modo CPU+RAM (sujeito a configurar opip install llama-cpp-python)

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo