多阶段训练完整流程
Open R1项目严格遵循技术报告的三阶段实现路径:
- R1-Distill阶段:
运行python src/open_r1/distill.py --corpus <path>
提炼高质量语料库,注意corpus路径需包含技术报告标注的6类原始数据 - 纯RL管道阶段:
执行python src/open_r1/rl_pipeline.py
时需要准备三个专项数据集:- 数学:MATH Benchmark格式
- 推理:GSM8K增强版
- 代码:HumanEval-X转换数据
- 最终调优阶段:
使用multi_stage_training.py
整合前两阶段产出,关键参数包括:- –model:基础模型checkpoint路径
- –rl_weight:RLloss权重(建议0.3-0.7)
- –warmup_steps:至少5000步预热
每个阶段结束后建议立即运行evaluate.py进行基准测试,确保阶段成果达标后再推进。
本答案来源于文章《Open R1:Hugging Face 复现 DeepSeek-R1 的训练过程》