密集奖励设计策略
针对多轮对话的奖励稀疏问题,Verifiers提出分阶段奖励设计方案::
- 过程奖励スルー
MultiTurnEnv
なenv_response
方法返回中间奖励 - 文法チェックで
Rubric
中配置JSON格式验证等基础奖励 - 学習プログラム:先用
SingleTurnEnv
训练基础能力再迁移到多轮环境
具体的な実施方法:
- 定義する
StepReward
类计算对话连贯性等中间指标 - 利用する
vf.Rubric
组合多个奖励函数(建议设置0.3-0.5的过程奖励权重) - とおす
vf-eval
命令行工具实时监控奖励分布 - 对长期任务采用
gamma=0.9
的折扣因子平衡即时/未来奖励
实验表明,该方法能使代理在50-100次迭代内获得有效学习信号。
この答えは記事から得たものである。Verifiers:大規模言語モデルを学習するための強化学習環境ツールのライブラリについて