Light-R1为何能在AIME数学竞赛中超越DeepSeek-R1模型？

2025-08-30

1.1 K

Light-R1在AIME竞赛中的优势源于三个关键技术突破：

採用两阶段SFT+DPO训练流程：

严格确保训练数据不含AIME24/25测试题目，避免模型通过记忆而非推理获得高分，使76.6和64.6的分数更具公信力。

在最终阶段合并SFT和DPO的训练成果，相比DeepSeek-R1-Distill-Qwen-32B的蒸馏方案，保留了更完整的推理能力链条。该技术使得Light-R1在AIME24上高出4分（76.6 vs 72.6），在难度更高的AIME25上优势扩大到9.7分（64.6 vs 54.9）。

クイック照会ステーションAIツール