模型架构与规模
Jan-nano作为Menlo Research开发的轻量级语言模型,其核心架构继承自Qwen3系列,通过参数精简技术将模型规模优化至40亿参数。这种架构选择使其在保持Qwen3基础性能的同时,显著降低了计算资源需求。模型采用多层Transformer结构,特别强化了注意力机制对长序列的处理能力,为128k版本的超长上下文支持奠定基础。
在参数配置上,研究团队通过结构剪枝和量化技术,将原始Qwen3的冗余层数压缩30%,同时保留95%以上的原始模型能力。这种平衡设计使得Jan-nano在SimpleQA基准测试中展现出与其参数量级不相称的优秀表现,尤其擅长中文文本生成任务。
本答案来源于文章《Jan-nano:轻量高效的文本生成模型》