MoE架构概述
混合专家(Mixture of Experts)架构是一种特殊的神经网络设计,dots.llm1采用了这种架构来平衡模型性能与计算效率。
架构优势
- 计算效率:虽然模型整体有1420亿参数,但推理时只激活140亿参数,大大减少计算资源消耗
- 动态路由:每个输入标记会动态选择6个路由专家和2个共享专家,总计激活8个专家网络
- 负载均衡:通过动态偏置项优化专家网络使用率,避免某些专家过载
- 性能提升:结合SwiGLU激活函数和多头注意力机制,提升了模型的表达能力
技术细节
模型采用单向解码器Transformer架构,将传统的前馈网络替换为MoE结构,包含128个路由专家和2个共享专家。注意力层采用多头注意力机制结合RMSNorm归一化,既保持了强大的表达能力,又提升了数值稳定性。
本答案来源于文章《dots.llm1:小红书开源的首个MoE大语言模型》