ReSearch是由Agent-RL团队开发的一个开源研究工具,旨在通过强化学习(Reinforcement Learning, RL)提升大型语言模型(LLM)的搜索和推理能力。该项目基于Qwen2.5-7B模型,采用GRPO(Generalized Reward Policy Optimization)方法进行训练,使模型能够仅依靠奖励信号自主调用搜索工具,而无需依赖监督数据。
与传统的监督学习方法不同,ReSearch的创新点在于:
- 完全基于强化学习框架训练
- 具备自主决策搜索时机的能力
- 在HotpotQA、Bamboogle和StrategyQA等多个数据集上验证了泛化性能
项目的核心目标是探索RL与LLM结合的可行性,为复杂推理任务提供更智能的解决方案。
本答案来源于文章《ReSearch:强化搜索推理能力的 Qwen2.5-7B 模型(实验)》