无监督奖励函数设计方案
ReCall采用的创新性解决方案:
- 双层奖励架构:
- 基础奖励:工具执行成功率(二进制)
- 高级奖励:最终答案与验证集的BLEU/ROUGE相似度
- 动态权重调整:通过以下指标自动平衡奖励:
- 工具调用路径长度惩罚系数
- 耗时敏感性参数
- 工具组合多样性系数
- 离线验证机制:
- 保留10%的MuSiQue数据作为验证集
- 每1000步进行离线评估
- 自动切换探索/利用模式
调试技巧:使用wandb/tensorboard监控奖励曲线,当工具调用准确率超过75%后逐步增加路径复杂度权重。
本答案来源于文章《ReCall:通过强化学习训练大模型进行工具调用推理》