海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

自動テストのためにOpenBenchをCI/CDプロセスに統合するには？

2025-08-19

240

OpenBenchを継続的インテグレーションシステムにプラグインするための具体的なシナリオ：

CIコンフィギュレーションでAPIキーの環境変数を設定する。OPENAI_API_KEY)
Dockerイメージを使用するか、uv/OpenBench環境を直接インストールする。
テストスクリプトを書く：bench eval mmlu --model 待测模型 --json > results.json
jqなどのツールによるJSON結果の解析、ビルド失敗のトリガーとなる精度のしきい値の設定（<80%など）
同時進行推奨humanevalコーディングテストとaime数学のテストは多面的な評価を形成する
過去の結果をCI成果物にアーカイブし、バージョン間のパフォーマンス比較を容易にする。

この方式は、モデルの微調整後の回帰テストに特に適しており、性能劣化の問題をいち早くキャッチすることができる。

この答えは記事から得たものである。OpenBench: 言語モデル評価のためのオープンソースベンチマークツールについて

関連記事

無断転載を禁じます：AI生産性ツール " 自動テストのためにOpenBenchをCI/CDプロセスに統合するには？

おすすめ

日本語