Light-R1提供完整的开源训练框架,复现训练需以下步骤:
1. 环境配置
- 安装360-LLaMA-Factory框架:
pip install -r train-scripts/requirements.txt
- 准备12台H800或同等算力GPU集群
2. 分阶段训练
- SFT第一阶段:
bash train-scripts/sft_stage1.sh
(76k数据集,约3小时) - SFT第二阶段:
bash train-scripts/sft_stage2.sh
(3k精选难题) - DPO优化:
bash train-scripts/dpo.sh
基于SFT结果强化推理选择
3. 模型合并
使用脚本整合各阶段成果:
python merge_models.py
--sft-model sft_stage2
--dpo-model dpo
--output Light-R1-32B
4. 自定义开发建议
- 领域扩展:替换数据集的50%为物理/化学题目可构建理科通用模型
- 效率优化:调整DPO阶段的温度参数(默认0.1)平衡多样性与精确度
- 评估验证:使用项目内置的DeepScaleR工具测试新模型在AIME基准的表现
本答案来源于文章《Light-R1:360开源的数学领域超强推理模型》