海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

検証者のルーブリック・システムが複雑なモデル評価システムの構築をサポート

2025-08-28 311
直接リンクモバイルビュー
qrcode

動的採点メカニズムの技術的実装

VerifiersのRubricシステムは、報酬指向の設計プログラミングパラダイムを使用しており、開発者が多次元の評価システムを定義するのをサポートします:

  • ファンクションコンビネーション例えば、コード・タスクにおける正しさ(0.7)+読みやすさ(0.3)など。
  • 条件付きトリガー例えば、APIコールが検出されたときのみパラメータ形式を検証するなど。
  • チェーン加工例: 誤答は0点で、詳細レビューをスキップする。

具体的な実装については、開発者はvf.Rubric基底クラスを作成し、採点ロジックを実装します。次の数学的評価の例は、その柔軟性を示しています:

class MathRubric(Rubric):
    def score(self, prompt, completion):
        correctness = check_math_answer(prompt, completion) 
        steps = count_solution_steps(completion)
        return 0.8*correctness + 0.2*min(steps/5, 1.0)

このシステムは、BLEUやROUGEなどのNLGメトリックスや、コード実行などの特別な評価機能を含む、20以上の事前構築されたスコアリング機能をすでにサポートしている。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る