当前位置：首页 » AI答疑

GRPO 方法使大模型仅通过奖励信号就能掌握搜索工具调用策略

2025-08-30

1.3 K

GRPO（Generalized Reward Policy Optimization）是 ReSearch 的核心训练算法，它突破了传统监督学习需要标注数据的限制。该技术通过设计多维奖励函数，使 Qwen2.5-7B 模型能够自主掌握以下能力：

实验数据显示，在 HotpotQA 开发集上，经过 GRPO 训练的模型相比基线方法提升 23% 的答案准确性。算法实现采用异步更新策略，支持 multi-GPU 并行训练，通过 ray 框架可实现多节点扩展。奖励设计包含三个关键维度：

这种纯奖励驱动的训练方式，为大模型适应动态工具生态提供了新范式。

快速查询站内AI工具