海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

GRPO 方法使大模型仅通过奖励信号就能掌握搜索工具调用策略

2025-08-30 1.3 K

GRPO(Generalized Reward Policy Optimization)是 ReSearch 的核心训练算法,它突破了传统监督学习需要标注数据的限制。该技术通过设计多维奖励函数,使 Qwen2.5-7B 模型能够自主掌握以下能力:

  • 搜索决策:根据问题复杂度判断是否需要调用外部搜索工具
  • 查询生成:将自然语言问题转换为有效的搜索关键词
  • 证据融合:将检索结果与已有知识进行联合推理

实验数据显示,在 HotpotQA 开发集上,经过 GRPO 训练的模型相比基线方法提升 23% 的答案准确性。算法实现采用异步更新策略,支持 multi-GPU 并行训练,通过 ray 框架可实现多节点扩展。奖励设计包含三个关键维度:

  1. 最终答案准确性(60%权重)
  2. 搜索查询相关性(20%权重)
  3. 推理链条连贯性(20%权重)

这种纯奖励驱动的训练方式,为大模型适应动态工具生态提供了新范式。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文