OpenBenchで複数モデルの比較テストを行う場合、以下の最適化ストラテジーを使用することができます:
- 利用する
--max-connections
APIクォータの合理的な設定に従って、同時リクエスト数を調整するパラメータ(デフォルトは10)。 - 右
bench eval
コマンドの使用法--model
複数のパラメータ値を複数のモデルで同時にテストする:--model groq/llama-3.3-70b openai/o3-2025-04-16
- とおす
--limit
フル稼働させる前に、まず少量のサンプルテスト(例えば50本)を実施し、プロセスの正しさを検証する。 - 課金APIモデルの場合、適合度
--json
意図しない中断を防ぐために中間結果を出力する - 高周波テスト・モデルの結果を、次のようにキャッシュする。
./logs/
カタログbench view
並べて比較する
この答えは記事から得たものである。OpenBench: 言語モデル評価のためのオープンソースベンチマークツールについて