密集奖励设计策略
针对多轮对话的奖励稀疏问题,Verifiers提出分阶段奖励设计方案::
- 过程奖励: através de
MultiTurnEnv
(usado em uma expressão nominal)env_response
方法返回中间奖励 - verificação gramatical: em
Rubric
中配置JSON格式验证等基础奖励 - Programa de estudos:先用
SingleTurnEnv
训练基础能力再迁移到多轮环境
具体实施:
- definir
StepReward
类计算对话连贯性等中间指标 - fazer uso de
vf.Rubric
组合多个奖励函数(建议设置0.3-0.5的过程奖励权重) - aprovar (um projeto de lei ou inspeção etc.)
vf-eval
命令行工具实时监控奖励分布 - 对长期任务采用
gamma=0.9
的折扣因子平衡即时/未来奖励
实验表明,该方法能使代理在50-100次迭代内获得有效学习信号。
Essa resposta foi extraída do artigoVerificadores: uma biblioteca de ferramentas de ambiente de aprendizagem por reforço para treinamento de modelos de linguagem de grande porteO