ReSearch经过在HotpotQA数据集上训练后,在以下数据集上验证了其泛化能力:
- Bamboogle:需要多步推理的开放域QA数据集,测试模型结合搜索与推理的能力
- StrategyQA:侧重于策略性思考的问答数据集,评估模型在没有明确上下文情况下的推理表现
这些验证实验表明:
- 模型能判断何时需要调用搜索引擎获取外部知识
- 学习到的推理策略可以迁移到不同类型的问答任务
- 强化学习训练方式比纯监督学习具有更好的跨领域适应性
具体评估方法是通过修改evaluation/run_eval.py
脚本的dataset_name
参数,使用相同的模型检查点测试不同数据集表现。项目文档提供了详细的跨数据集评估流程和指标计算方法。
This answer comes from the articleReSearch: a Qwen2.5-7B model for enhanced search reasoning (experimental)The