動的採点メカニズムの技術的実装
VerifiersのRubricシステムは、報酬指向の設計プログラミングパラダイムを使用しており、開発者が多次元の評価システムを定義するのをサポートします:
- ファンクションコンビネーション例えば、コード・タスクにおける正しさ(0.7)+読みやすさ(0.3)など。
- 条件付きトリガー例えば、APIコールが検出されたときのみパラメータ形式を検証するなど。
- チェーン加工例: 誤答は0点で、詳細レビューをスキップする。
具体的な実装については、開発者はvf.Rubric基底クラスを作成し、採点ロジックを実装します。次の数学的評価の例は、その柔軟性を示しています:
class MathRubric(Rubric):
def score(self, prompt, completion):
correctness = check_math_answer(prompt, completion)
steps = count_solution_steps(completion)
return 0.8*correctness + 0.2*min(steps/5, 1.0)
このシステムは、BLEUやROUGEなどのNLGメトリックスや、コード実行などの特別な評価機能を含む、20以上の事前構築されたスコアリング機能をすでにサポートしている。
この答えは記事から得たものである。Verifiers:大規模言語モデルを学習するための強化学習環境ツールのライブラリについて































