集中的な報酬設計戦略
多ラウンド対話における報酬の希薄性の問題に対処するために、Verifiersは以下を提案する。段階的インセンティブ設計プログラム::
- プロセスインセンティブスルー
MultiTurnEnvなenv_responseメソッドは中間報酬を返す。 - 文法チェックで
RubricでJSONフォーマットの検証やその他の基本的なインセンティブを設定する。 - 学習プログラムで始める。
SingleTurnEnvマルチラウンド環境に移行する前に基本的なスキルをトレーニングする
具体的な実施方法:
- 定義する
StepReward計算対話の一貫性などの中間指標 - 利用する
vf.Rubric複数の報酬関数を組み合わせる(プロセス報酬の重みは0.3~0.5を推奨) - とおす
vf-eval報酬分配をリアルタイムで監視するコマンドラインツール - 長期委任契約の利用
gamma=0.9割引率は、目先の報酬と将来の報酬のバランスをとる。
実験によると、この方法によりエージェントは50~100回の反復で効果的な学習信号を得ることができる。
この答えは記事から得たものである。Verifiers:大規模言語モデルを学習するための強化学習環境ツールのライブラリについて































