ReSearch的训练流程包含以下关键步骤:
- Preparação de dados::
下载HotpotQA数据集,执行data_preprocess_hpqa.py
脚本将数据转换为parquet格式 - Configuração de parâmetros::
compiladortraining/run.sh
文件,设置:
– 模型路径(actor_model_path
)
– RAG服务地址(search_url
)
– 训练/开发集路径 - treinamento de preparação::
在verl环境下执行bash training/run.sh
Iniciar o treinamento
训练过程中的注意事项:
- Monitoramento de registros:使用TensorBoard查看训练曲线(
tensorboard --logdir runs/
) - 资源配置::
– 单节点训练需8个GPU
– 多节点需通过ray框架配置分布式训练 - resolução de falhas::
– 检查CUDA与PyTorch版本兼容性
– 确认RAG服务正常运行
– 参考GitHub Issues中的已知问题解决方案
训练完成后,会在指定路径下生成模型检查点供后续评估使用。
Essa resposta foi extraída do artigoReSearch: um modelo Qwen2.5-7B para raciocínio de pesquisa aprimorado (experimental)O