GRPO(Generalized Reward Policy Optimization)是 ReSearch 的核心训练算法,它突破了传统监督学习需要标注数据的限制。该技术通过设计多维奖励函数,使 Qwen2.5-7B 模型能够自主掌握以下能力:
- 搜索决策:根据问题复杂度判断是否需要调用外部搜索工具
- 查询生成:将自然语言问题转换为有效的搜索关键词
- 证据融合:将检索结果与已有知识进行联合推理
实验数据显示,在 HotpotQA 开发集上,经过 GRPO 训练的模型相比基线方法提升 23% 的答案准确性。算法实现采用异步更新策略,支持 multi-GPU 并行训练,通过 ray 框架可实现多节点扩展。奖励设计包含三个关键维度:
- 最终答案准确性(60%权重)
- 搜索查询相关性(20%权重)
- 推理链条连贯性(20%权重)
这种纯奖励驱动的训练方式,为大模型适应动态工具生态提供了新范式。
本答案来源于文章《ReSearch:强化搜索推理能力的 Qwen2.5-7B 模型(实验)》