Jan-nano 是一个基于 Qwen3 架构优化的 40 亿参数语言模型,由 Menlo Research 开发,托管在 Hugging Face 平台。它专为高效文本生成设计,兼顾小体积和长上下文处理能力,适合本地或嵌入式环境。模型支持工具调用和研究任务,性能在 SimpleQA 基准测试中表现优异,适合需要轻量级 AI 解决方案的用户。Jan-nano 通过开源方式发布,安装简单,社区支持丰富,适合开发者、研究人员和企业用户。
功能列表
- 支持高效文本生成,生成流畅且准确的文本内容。
- 提供强大的工具调用功能,可无缝集成外部工具和 API。
- 优化长上下文处理,Jan-nano-128k 版本支持 128k 令牌的原生上下文窗口。
- 适配本地部署,VRAM 占用低,适合低资源设备。
- 兼容 Model Context Protocol (MCP) 服务器,提升研究任务效率。
- 支持多种量化格式(如 GGUF),便于不同硬件环境部署。
- 提供非思考聊天模板,优化对话生成体验。
使用帮助
安装流程
Jan-nano 模型可以通过 Hugging Face 平台下载并在本地部署。以下是详细的安装和使用步骤,适合初学者和开发者:
- 环境准备
确保系统已安装 Python 3.8+ 和 Git。推荐使用虚拟环境以避免依赖冲突:python -m venv jan_env source jan_env/bin/activate # Linux/Mac jan_env\Scripts\activate # Windows
- 安装必要工具
安装 Hugging Face 的transformers
库和vllm
(用于高效推理):pip install transformers vllm
- 下载模型
使用huggingface-cli
下载 Jan-nano 模型:huggingface-cli download Menlo/Jan-nano --local-dir ./jan-nano
如果需要 GGUF 量化版本,可下载 bartowski 的量化模型:
huggingface-cli download bartowski/Menlo_Jan-nano-GGUF --include "Menlo_Jan-nano-Q4_K_M.gguf" --local-dir ./jan-nano-gguf
- 运行模型
使用vllm
启动模型服务,推荐以下命令:vllm serve Menlo/Jan-nano --host 0.0.0.0 --port 1234 --enable-auto-tool-choice --tool-call-parser hermes
对于 Jan-nano-128k 版本,需额外设置上下文参数:
vllm serve Menlo/Jan-nano-128k --host 0.0.0.0 --port 1234 --enable-auto-tool-choice --tool-call-parser hermes --rope-scaling '{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}' --max-model-len 131072
如果遇到聊天模板问题,可手动下载非思考模板:
wget https://huggingface.co/Menlo/Jan-nano/raw/main/qwen3_nonthinking.jinja
- 验证安装
启动服务后,通过 cURL 或 Python 脚本测试模型:import requests response = requests.post("http://localhost:1234/v1/completions", json={ "model": "Menlo/Jan-nano", "prompt": "你好,介绍一下 Jan-nano。", "max_tokens": 100 }) print(response.json()["choices"][0]["text"])
主要功能操作
- 文本生成
Jan-nano 擅长生成自然语言文本。用户可以通过 API 或命令行输入提示词(prompt),模型会返回流畅的文本。例如,输入“撰写一篇关于 AI 的文章”,模型将生成结构清晰的文章内容。推荐参数:temperature=0.7
,top-p=0.8
,top-k=20
。 - 工具调用
Jan-nano 支持自动工具调用,适合与外部 API 或数据库交互。用户需在提示词中指定工具格式,模型会解析并调用。例如,查询天气的提示词:{ "prompt": "查询北京今日天气", "tools": [{"type": "weather_api", "endpoint": "https://api.weather.com"}] }
模型会返回结构化响应,包含工具调用结果。
- 长上下文处理(Jan-nano-128k)
Jan-nano-128k 支持处理长达 128k 令牌的上下文,适合分析长文档或多轮对话。用户可输入整篇论文或长对话,模型能保持上下文一致性。例如,分析一篇 50 页的学术论文:curl -X POST http://localhost:1234/v1/completions -d '{"model": "Menlo/Jan-nano-128k", "prompt": "<论文全文>", "max_tokens": 500}'
- 本地部署优化
模型占用 VRAM 较低,Q4_K_M 量化版本适合 8GB 显存设备。用户可通过调整量化级别(如 Q3_K_XL、Q4_K_L)适配不同硬件。
特色功能操作
- MCP 服务器集成
Jan-nano 与 Model Context Protocol (MCP) 服务器兼容,适合研究场景。用户需启动 MCP 服务器并配置模型:mcp_server --model Menlo/Jan-nano --port 5678
然后通过 MCP 客户端发送研究任务请求,模型会自动调用相关工具完成任务。
- SimpleQA 基准测试
Jan-nano 在 SimpleQA 基准测试中表现出色,适合问答任务。用户可输入问题,模型返回准确答案。例如:curl -X POST http://localhost:1234/v1/completions -d '{"prompt": "Python 中的 lambda 函数是什么?", "max_tokens": 200}'
注意事项
- 确保硬件满足最低要求(建议 8GB 显存)。
- 长上下文任务需使用 Jan-nano-128k 版本。
- 定期检查 Hugging Face 社区讨论,获取最新优化建议。
应用场景
- 学术研究
Jan-nano-128k 可处理长篇论文或书籍,提取关键信息或生成总结。研究人员可输入整篇文档,模型能分析上下文并回答复杂问题,适合文献综述或数据分析。 - 本地 AI 助手
在无互联网环境下,Jan-nano 可作为本地化 AI 助手,回答问题或生成文本。开发者可将其集成到离线应用中,提供智能客服或写作辅助。 - 工具自动化
借助工具调用功能,Jan-nano 可自动化任务,如查询数据库、调用 API 或生成报告。企业可用于自动化工作流,提高效率。 - 嵌入式设备部署
由于模型体积小,Jan-nano 适合嵌入式设备,如智能家居或机器人,提供实时文本生成和交互功能。
QA
- Jan-nano 和 Jan-nano-128k 有什么区别?
Jan-nano 是基础版本,适合短上下文任务;Jan-nano-128k 支持 128k 令牌的原生上下文窗口,适合长文档处理和复杂研究任务。 - 如何选择适合的量化版本?
Q4_K_M 适合 8GB 显存设备,性能和资源占用平衡;Q3_K_XL 更轻量,适合低端设备,但精度略低。参考硬件配置选择。 - 模型支持中文吗?
是的,基于 Qwen3 架构,Jan-nano 对中文生成和理解有良好支持,适合中文研究和应用场景。 - 如何优化长上下文性能?
使用 Jan-nano-128k,设置rope-scaling
参数,并确保硬件支持大内存。避免频繁切换上下文以减少性能开销。