O Jan-nano é um aplicativo baseado no Qwen3 Modelo de linguagem de 4 bilhões de parâmetros otimizado para arquitetura, desenvolvido pela Menlo Research e hospedado na plataforma Hugging Face. Ele foi projetado para geração eficiente de texto, combinando tamanho pequeno e longos recursos de processamento contextual para ambientes locais ou incorporados. O modelo é compatível com chamadas de ferramentas e tarefas de pesquisa e apresenta bom desempenho em benchmarks SimpleQA, o que o torna adequado para usuários que precisam de uma solução leve de IA. O jan-nano é lançado como código aberto, com fácil instalação e suporte da comunidade para desenvolvedores, pesquisadores e usuários corporativos.
Lista de funções
- Oferece suporte à geração eficiente de texto para produzir conteúdo de texto suave e preciso.
- Oferece chamadas de ferramentas avançadas para integração perfeita com ferramentas e APIs externas.
- Otimizada para o manuseio de contextos longos, a versão Jan-nano-128k oferece suporte a uma janela de contexto nativa para 128 mil tokens.
- Adequado para implantação local, baixo consumo de VRAM, adequado para dispositivos com poucos recursos.
- compatibilidade Modelo de protocolo de contexto (MCP) para aumentar a eficiência das tarefas de pesquisa.
- Oferece suporte a vários formatos de quantificação (por exemplo, GGUF) para facilitar a implantação em diferentes ambientes de hardware.
- Forneça modelos de bate-papo sem pensar para otimizar a experiência de geração de conversas.
Usando a Ajuda
Processo de instalação
Os modelos Jan-nano podem ser baixados e implantados localmente por meio da plataforma Hugging Face. Abaixo estão as etapas detalhadas de instalação e uso para iniciantes e desenvolvedores:
- Preparação ambiental
Certifique-se de que o Python 3.8+ e o Git estejam instalados em seu sistema; um ambiente virtual é recomendado para evitar conflitos de dependência:python -m venv jan_env source jan_env/bin/activate # Linux/Mac jan_env\Scripts\activate # Windows
- Instalação das ferramentas necessárias
Instalação do Hugging Facetransformers
bibliotecas evllm
(para um raciocínio eficiente):pip install transformers vllm
- Modelos para download
fazer uso dehuggingface-cli
Faça o download do modelo Jan-nano:huggingface-cli download Menlo/Jan-nano --local-dir ./jan-nano
Se precisar de uma versão quantitativa do GGUF, você pode fazer o download do modelo quantitativo de Bartowski:
huggingface-cli download bartowski/Menlo_Jan-nano-GGUF --include "Menlo_Jan-nano-Q4_K_M.gguf" --local-dir ./jan-nano-gguf
- modelo operacional
fazer uso devllm
Para iniciar o serviço de modelo, recomenda-se o seguinte comando:vllm serve Menlo/Jan-nano --host 0.0.0.0 --port 1234 --enable-auto-tool-choice --tool-call-parser hermes
Para a versão Jan-nano-128k, são necessários parâmetros de contexto adicionais:
vllm serve Menlo/Jan-nano-128k --host 0.0.0.0 --port 1234 --enable-auto-tool-choice --tool-call-parser hermes --rope-scaling '{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}' --max-model-len 131072
Se você tiver problemas com o modelo de bate-papo, poderá fazer o download manual do modelo não pensante:
wget https://huggingface.co/Menlo/Jan-nano/raw/main/qwen3_nonthinking.jinja
- Verificar a instalação
Depois de iniciar o serviço, teste o modelo via cURL ou script Python:import requests response = requests.post("http://localhost:1234/v1/completions", json={ "model": "Menlo/Jan-nano", "prompt": "你好,介绍一下 Jan-nano。", "max_tokens": 100 }) print(response.json()["choices"][0]["text"])
Funções principais
- Geração de texto
O Jan-nano é especializado na geração de texto em linguagem natural. Os usuários podem inserir prompts por meio da API ou da linha de comando, e o modelo retornará um texto suave. Por exemplo, digite "write an article about AI" (escreva um artigo sobre IA) e o modelo gerará um artigo claramente estruturado. Parâmetros recomendados:temperature=0.7
,top-p=0.8
,top-k=20
. - Chamada de ferramenta
O Jan-nano oferece suporte à invocação automática de ferramentas, adequada para interação com APIs ou bancos de dados externos. O usuário precisa especificar o formato da ferramenta no prompt, e o modelo o analisará e o chamará. Por exemplo, uma palavra de prompt para verificar o clima:{ "prompt": "查询北京今日天气", "tools": [{"type": "weather_api", "endpoint": "https://api.weather.com"}] }
O modelo retorna uma resposta estruturada contendo os resultados da chamada da ferramenta.
- Processamento de contexto longo (Jan-nano-128k)
O Jan-nano-128k suporta contextos de processamento de até 128 mil tokens, o que é adequado para analisar documentos longos ou várias rodadas de diálogo. Os usuários podem inserir um artigo inteiro ou um longo diálogo, e o modelo mantém a consistência contextual. Por exemplo, a análise de um artigo acadêmico de 50 páginas:curl -X POST http://localhost:1234/v1/completions -d '{"model": "Menlo/Jan-nano-128k", "prompt": "<论文全文>", "max_tokens": 500}'
- Otimização da implantação local
O modelo consome menos VRAM, e a versão quantificada Q4_K_M é adequada para dispositivos de 8 GB de RAM. Os usuários podem ajustar o nível de quantificação (por exemplo, Q3_K_XL, Q4_K_L) para se adequar a diferentes hardwares.
Operação da função em destaque
- Integração do servidor MCP
O Jan-nano é compatível com o servidor MCP (Model Context Protocol) para cenários de pesquisa. O usuário precisa iniciar o servidor MCP e configurar o modelo:mcp_server --model Menlo/Jan-nano --port 5678
Uma solicitação de tarefa de pesquisa é então enviada por meio do cliente MCP e o modelo chama automaticamente a ferramenta relevante para concluir a tarefa.
- Benchmarking do SimpleQA
O Jan-nano tem bom desempenho nos benchmarks SimpleQA e é adequado para tarefas de perguntas e respostas. O usuário pode inserir uma pergunta e o modelo retorna a resposta exata. Exemplo:curl -X POST http://localhost:1234/v1/completions -d '{"prompt": "Python 中的 lambda 函数是什么?", "max_tokens": 200}'
advertência
- Certifique-se de que seu hardware atenda aos requisitos mínimos (recomenda-se 8 GB de memória de vídeo).
- A versão Jan-nano-128k é necessária para tarefas de contexto longo.
- Consulte regularmente as discussões da comunidade Hugging Face para obter as sugestões de otimização mais recentes.
cenário do aplicativo
- pesquisa acadêmica
O Jan-nano-128k pode processar artigos ou livros longos, extrair informações importantes ou gerar resumos. Os pesquisadores podem inserir documentos inteiros e o modelo pode analisar o contexto e responder a perguntas complexas, tornando-o adequado para revisões de literatura ou análise de dados. - Assistente local de IA
Em ambientes sem internet, o Jan-nano pode ser usado como um assistente de IA localizado para responder a perguntas ou gerar texto. Os desenvolvedores podem integrá-lo a aplicativos off-line para oferecer atendimento inteligente ao cliente ou assistência para escrever. - Automação de ferramentas
Com a funcionalidade de chamada de ferramenta, o Jan-nano automatiza tarefas como consulta a bancos de dados, chamada de APIs ou geração de relatórios. As organizações podem usá-lo para automatizar fluxos de trabalho e aumentar a eficiência. - Implementação de dispositivos incorporados
Devido ao pequeno tamanho do modelo, o Jan-nano é adequado para dispositivos incorporados, como casas inteligentes ou robôs, fornecendo geração e interação de texto em tempo real.
QA
- Qual é a diferença entre o Jan-nano e o Jan-nano-128k?
Jan-nano é a versão básica, adequada para tarefas de contexto curto; Jan-nano-128k oferece suporte a uma janela de contexto nativa de 128k tokens, adequada para processamento de documentos longos e tarefas de pesquisa complexas. - Como escolher a versão correta de quantificação?
O Q4_K_M é adequado para dispositivos de memória de vídeo de 8 GB com desempenho e consumo de recursos equilibrados; o Q3_K_XL é mais leve e adequado para dispositivos de baixo custo, mas com precisão um pouco menor. Consulte a configuração de hardware para escolher. - O modelo é compatível com o idioma chinês?
Sim, com base na arquitetura Qwen3, o Jan-nano tem um bom suporte para geração e compreensão do idioma chinês, o que é adequado para cenários de pesquisa e aplicação do idioma chinês. - Como otimizar o desempenho no contexto longo?
Usando o Jan-nano-128k, configure orope-scaling
e certifique-se de que o hardware seja compatível com memória grande. Evite a troca frequente de contexto para reduzir a sobrecarga de desempenho.