海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

Light-R1为何能在AIME数学竞赛中超越DeepSeek-R1模型?

2025-08-30 1.1 K

Light-R1在AIME竞赛中的优势源于三个关键技术突破:

1. 分阶段训练策略

採用两阶段SFT+DPO训练流程:

  • SFT第一阶段:使用76k基础数学数据集(3小时训练)建立基本推理能力
  • SFT第二阶段:3k高难度题目精调,提升复杂问题处理能力
  • DPO优化:通过偏好学习强化模型的关键推理步骤选择

2. 数据去污染处理

严格确保训练数据不含AIME24/25测试题目,避免模型通过记忆而非推理获得高分,使76.6和64.6的分数更具公信力。

3. 模型融合技术

在最终阶段合并SFT和DPO的训练成果,相比DeepSeek-R1-Distill-Qwen-32B的蒸馏方案,保留了更完整的推理能力链条。该技术使得Light-R1在AIME24上高出4分(76.6 vs 72.6),在难度更高的AIME25上优势扩大到9.7分(64.6 vs 54.9)。

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語