Light-R1在AIME竞赛中的优势源于三个关键技术突破:
1. 分阶段训练策略
採用两阶段SFT+DPO训练流程:
- SFT第一阶段:使用76k基础数学数据集(3小时训练)建立基本推理能力
- SFT第二阶段:3k高难度题目精调,提升复杂问题处理能力
- DPO优化:通过偏好学习强化模型的关键推理步骤选择
2. 数据去污染处理
严格确保训练数据不含AIME24/25测试题目,避免模型通过记忆而非推理获得高分,使76.6和64.6的分数更具公信力。
3. 模型融合技术
在最终阶段合并SFT和DPO的训练成果,相比DeepSeek-R1-Distill-Qwen-32B的蒸馏方案,保留了更完整的推理能力链条。该技术使得Light-R1在AIME24上高出4分(76.6 vs 72.6),在难度更高的AIME25上优势扩大到9.7分(64.6 vs 54.9)。
この答えは記事から得たものである。Light-R1: 360のオープンソース、数学領域のための超絶推論モデルについて