OpenBenchを継続的インテグレーションシステムにプラグインするための具体的なシナリオ:
- CIコンフィギュレーションでAPIキーの環境変数を設定する。
OPENAI_API_KEY
) - Dockerイメージを使用するか、uv/OpenBench環境を直接インストールする。
- テストスクリプトを書く:
bench eval mmlu --model 待测模型 --json > results.json
- jqなどのツールによるJSON結果の解析、ビルド失敗のトリガーとなる精度のしきい値の設定(<80%など)
- 同時進行推奨
humaneval
コーディングテストとaime
数学のテストは多面的な評価を形成する - 過去の結果をCI成果物にアーカイブし、バージョン間のパフォーマンス比較を容易にする。
この方式は、モデルの微調整後の回帰テストに特に適しており、性能劣化の問題をいち早くキャッチすることができる。
この答えは記事から得たものである。OpenBench: 言語モデル評価のためのオープンソースベンチマークツールについて