模型训练动态研究的数据支持
dots.llm1开源了每1万亿token的训练中间检查点,这是当前最完整的MoE训练过程记录:
- 包含32个关键训练阶段的模型参数快照
- 记录专家网络选择频率的演化过程
- 保存损失函数和评估指标的完整历史数据
这些数据揭示了两项重要发现:
1. MoE模型在训练中期(6-8万亿token)出现明显的专家专业化分工
2. 中文能力突现发生在9万亿token训练量附近
研究人员已利用这些检查点发表了3篇顶会论文,涉及专家路由策略改进和知识获取机制研究。
This answer comes from the articledots.llm1: the first MoE large language model open-sourced by Little Red BookThe