ReSearch的训练流程包含以下关键步骤:
- 数据准备:
下载HotpotQA数据集,执行data_preprocess_hpqa.py
脚本将数据转换为parquet格式 - 参数配置:
编辑training/run.sh
文件,设置:
– 模型路径(actor_model_path
)
– RAG服务地址(search_url
)
– 训练/开发集路径 - 启动训练:
在verl环境下执行bash training/run.sh
开始训练
训练过程中的注意事项:
- 日志监控:使用TensorBoard查看训练曲线(
tensorboard --logdir runs/
) - 资源配置:
– 单节点训练需8个GPU
– 多节点需通过ray框架配置分布式训练 - 故障排查:
– 检查CUDA与PyTorch版本兼容性
– 确认RAG服务正常运行
– 参考GitHub Issues中的已知问题解决方案
训练完成后,会在指定路径下生成模型检查点供后续评估使用。
本答案来源于文章《ReSearch:强化搜索推理能力的 Qwen2.5-7B 模型(实验)》