海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

什么是ReSearch？它的开发目的是什么？

2025-08-30

1.3 K

ReSearch是由Agent-RL团队开发的一个开源研究工具，旨在通过强化学习(Reinforcement Learning, RL)提升大型语言模型(LLM)的搜索和推理能力。该项目基于Qwen2.5-7B模型，采用GRPO(Generalized Reward Policy Optimization)方法进行训练，使模型能够仅依靠奖励信号自主调用搜索工具，而无需依赖监督数据。

与传统的监督学习方法不同，ReSearch的创新点在于：

完全基于强化学习框架训练
具备自主决策搜索时机的能力
在HotpotQA、Bamboogle和StrategyQA等多个数据集上验证了泛化性能

项目的核心目标是探索RL与LLM结合的可行性，为复杂推理任务提供更智能的解决方案。

この答えは記事から得たものである。ReSearch: Qwen2.5-7Bによる検索推論強化モデル（実験的）について

関連記事

無断転載を禁じます：AI生産性ツール " 什么是ReSearch？它的开发目的是什么？

おすすめ

日本語