密集奖励设计策略
针对多轮对话的奖励稀疏问题,Verifiers提出分阶段奖励设计方案::
- 过程奖励: durch
MultiTurnEnv
(in Form eines Nominalausdrucks)env_response
方法返回中间奖励 - Grammatikprüfung: in
Rubric
中配置JSON格式验证等基础奖励 - Studiengang: Beginn mit
SingleTurnEnv
训练基础能力再迁移到多轮环境
Spezifische Umsetzung:
- definieren.
StepReward
类计算对话连贯性等中间指标 - ausnutzen
vf.Rubric
组合多个奖励函数(建议设置0.3-0.5的过程奖励权重) - passieren (eine Rechnung oder Inspektion etc.)
vf-eval
命令行工具实时监控奖励分布 - 对长期任务采用
gamma=0.9
的折扣因子平衡即时/未来奖励
实验表明,该方法能使代理在50-100次迭代内获得有效学习信号。
Diese Antwort stammt aus dem ArtikelVerifiers:用于训练大语言模型的强化学习环境工具库Die