密集奖励设计策略
针对多轮对话的奖励稀疏问题,Verifiers提出分阶段奖励设计方案:
- 过程奖励:通过
MultiTurnEnv
的env_response
方法返回中间奖励 - 语法检查:在
Rubric
中配置JSON格式验证等基础奖励 - 课程学习:先用
SingleTurnEnv
训练基础能力再迁移到多轮环境
具体实施:
- 定义
StepReward
类计算对话连贯性等中间指标 - 使用
vf.Rubric
组合多个奖励函数(建议设置0.3-0.5的过程奖励权重) - 通过
vf-eval
命令行工具实时监控奖励分布 - 对长期任务采用
gamma=0.9
的折扣因子平衡即时/未来奖励
实验表明,该方法能使代理在50-100次迭代内获得有效学习信号。
本答案来源于文章《Verifiers:用于训练大语言模型的强化学习环境工具库》