dots.llm1的训练检查点为MoE研究提供宝贵资源

2025-08-20

223

模型训练动态研究的数据支持

dots.llm1开源了每1万亿token的训练中间检查点，这是当前最完整的MoE训练过程记录：

这些数据揭示了两项重要发现：
1. MoE模型在训练中期(6-8万亿token)出现明显的专家专业化分工
2. 中文能力突现发生在9万亿token训练量附近
研究人员已利用这些检查点发表了3篇顶会论文，涉及专家路由策略改进和知识获取机制研究。