海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

dots.llm1是小红书开源的首个采用混合专家架构的大语言模型

2025-08-20 209

dots.llm1的MoE架构特点与开源意义

dots.llm1作为小红书首个开源大语言模型,其核心创新在于采用混合专家(MoE)架构设计。该架构包含128个路由专家和2个共享专家,每输入标记动态选择6个路由专家和2个共享专家共同处理。这种设计使得模型在保持1420亿总参数规模的同时,推理时仅激活140亿参数,将计算成本降低80%以上。

  • 架构细节:采用单向解码器Transformer结构,使用SwiGLU激活函数优化数据捕捉
  • 核心技术:注意力层结合多头注意力机制与RMSNorm归一化,提升数值稳定性
  • 负载平衡:通过动态偏置项优化专家网络使用率,避免专家负载不均衡

开源策略使dots.llm1成为首个来自中国社交平台的可商用MoE模型,填补了中文MoE大模型的开源空白。

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文