Light-R1提供完整的开源训练框架,复现训练需以下步骤:
1. configuração ambiental
- 安装360-LLaMA-Factory框架:
pip install -r train-scripts/requirements.txt
- 准备12台H800或同等算力GPU集群
2. 分阶段训练
- SFT第一阶段::
bash train-scripts/sft_stage1.sh
(76k数据集,约3小时) - SFT第二阶段::
bash train-scripts/sft_stage2.sh
(3k精选难题) - DPO优化::
bash train-scripts/dpo.sh
基于SFT结果强化推理选择
3. 模型合并
使用脚本整合各阶段成果:
python merge_models.py
--sft-model sft_stage2
--dpo-model dpo
--output Light-R1-32B
4. 自定义开发建议
- 领域扩展:替换数据集的50%为物理/化学题目可构建理科通用模型
- Otimização da eficiência:调整DPO阶段的温度参数(默认0.1)平衡多样性与精确度
- 评估验证:使用项目内置的DeepScaleR工具测试新模型在AIME基准的表现
Essa resposta foi extraída do artigoLight-R1: 360 modelo de inferência soberba de código aberto para o domínio matemáticoO