inspect-aiフレームワークの拡張性に基づき、新しいベンチマークテストを追加する手順は以下の通りである:
- のプロジェクト・ディレクトリにある。
benchmarks/
を継承する新しいPythonモジュールを作成する。BaseBenchmark
類似 - 履行
load_dataset()
歌で応えるevaluate()
方法論、評価ロジックの定義 - デコレーターによる
@register_benchmark
テストの登録、メタデータの設定(カテゴリー、難易度など) - 新築
conftest.py
データセットダウンロードロジックの追加(HuggingFaceパーミッションの処理が必要) - 利用する
uv run pytest benchmarks/新测试名
検証の実施 - とおす
bench list
新しいテストが利用可能なリストに表示されたことを確認する。
コードのスタイルを統一するために、MMLU のような既存のテストの実装を参照することが推奨される。
この答えは記事から得たものである。OpenBench: 言語モデル評価のためのオープンソースベンチマークツールについて