密集奖励设计策略
针对多轮对话的奖励稀疏问题,Verifiers提出分阶段奖励设计方案::
- 过程奖励: By
MultiTurnEnv
(used form a nominal expression)env_response
方法返回中间奖励 - grammar check: in
Rubric
中配置JSON格式验证等基础奖励 - Courses of Study:先用
SingleTurnEnv
训练基础能力再迁移到多轮环境
Specific implementation:
- define
StepReward
类计算对话连贯性等中间指标 - utilization
vf.Rubric
组合多个奖励函数(建议设置0.3-0.5的过程奖励权重) - pass (a bill or inspection etc)
vf-eval
命令行工具实时监控奖励分布 - 对长期任务采用
gamma=0.9
的折扣因子平衡即时/未来奖励
实验表明,该方法能使代理在50-100次迭代内获得有效学习信号。
This answer comes from the articleVerifiers:用于训练大语言模型的强化学习环境工具库The