当前位置：首页 » AI答疑

ReSearch 是一个通过强化学习提升大模型搜索推理能力的开源工具

2025-08-30

1.3 K

ReSearch 由 Agent-RL 团队开发，是基于 Qwen2.5-7B 模型构建的强化学习训练框架。其核心创新在于采用 GRPO（Generalized Reward Policy Optimization）方法，仅依赖奖励信号实现大模型的自主搜索工具调用，无需监督数据支持。该项目结合了 DeepSeek-R1-Zero 和 OpenAI Deep Research 的技术思路，在 HotpotQA 数据集上完成训练后，成功验证了其在 Bamboogle、StrategyQA 等不同数据集的泛化能力。

技术实现上包含三个关键模块：

强化学习管道：提供完整的参数配置和奖励信号设计，支持从零开始训练大模型
自动搜索调用：模型可根据问题复杂度自主决策是否触发搜索工具
集成评估环境：通过 FlashRAG 实现快速性能测试，支持多数据集评估

开源代码库包含训练、评估、部署的全流程实现，为研究社区提供了 RL 与 LLM 结合的可复现实验框架。

本答案来源于文章《ReSearch：强化搜索推理能力的 Qwen2.5-7B 模型（实验）》

未经允许不得转载：AI生产力工具 » ReSearch 是一个通过强化学习提升大模型搜索推理能力的开源工具

ReSearch 是一个通过强化学习提升大模型搜索推理能力的开源工具

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

ReSearch 是一个通过强化学习提升大模型搜索推理能力的开源工具

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

快速查询站内AI工具