海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

什么是ReSearch?它的开发目的是什么?

2025-08-30 1.3 K

ReSearch是由Agent-RL团队开发的一个开源研究工具,旨在通过强化学习(Reinforcement Learning, RL)提升大型语言模型(LLM)的搜索和推理能力。该项目基于Qwen2.5-7B模型,采用GRPO(Generalized Reward Policy Optimization)方法进行训练,使模型能够仅依靠奖励信号自主调用搜索工具,而无需依赖监督数据。

与传统的监督学习方法不同,ReSearch的创新点在于:

  • 完全基于强化学习框架训练
  • 具备自主决策搜索时机的能力
  • 在HotpotQA、Bamboogle和StrategyQA等多个数据集上验证了泛化性能

项目的核心目标是探索RL与LLM结合的可行性,为复杂推理任务提供更智能的解决方案。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文