OpenBenchはオープンソースの言語モデル評価ツールで、特定のモデルベンダーに限定されません。開発者はこのツールを使って、知識、推論、コーディング、数学など幅広い領域をカバーする20以上のベンチマークテストセットで、言語モデルの標準化された再現可能な性能評価を行うことができます。OpenBenchの中核となる強みは、そのシンプルさと汎用性です。シンプルなコマンドラインインターフェースを提供し、ユーザはわずかなコマンドで評価タスクを起動することができます。このツールは、Groq、OpenAI、Anthropic、Googleのような主流のモデルサービスプロバイダを幅広くサポートしており、Ollamaを通して実行されるネイティブモデルとも互換性があります。このツールはinspect-ai
OpenBenchはフレームワークの上に構築されているため拡張性があり、開発者は新しいベンチマークや評価指標を簡単に追加することができます。このため、OpenBenchはモデル性能評価のための柔軟で使いやすいプラットフォームとなっています。
機能一覧
- 20以上のベンチマークをサポートMMLU、GPQA、HumanEval、SimpleQA、そしてAIMEやHMMTといった様々な競技レベルの数学評価を内蔵。
- シンプルなコマンドラインインターフェイス(CLI)提供
bench list
そしてbench describe
そしてbench eval
など、シンプルで直感的なコマンドでレビューを管理・実行できる。 - 複数のモデルサプライヤーに対応Groq、OpenAI、Anthropic、Google、AWS Bedrock、Azureなど、15以上のモデルベンダーをサポート。
- 地域モデルのサポートOllamaと統合して、ローカルで動作する言語モデルを評価することができます。
- 標準的なフレームワークをベースにしている。
inspect-ai
アセスメント・フレームワークは、アセスメントの正規性と信頼性を保証するアセスメント・フレームワークの上にある。 - 高い拡張性開発者は、新しいベンチマーク・プロジェクトやカスタム評価指標を簡単に追加できます。
- インタラクティブな結果表示提供
bench view
コマンドを使うと、対話型ユーザーインターフェースで評価ログを見ることができます。 - 柔軟な評価構成例えば、温度、トークンの最大数、同時リクエスト数などを設定することができます。
ヘルプの使用
OpenBenchは大規模言語モデル(LLM)の標準化されたベンチマーク用のツール一式を提供します。以下のセクションでは、モデルを評価するためのツールのインストール方法と使用方法について詳しく説明します。
1.環境の準備と設置
OpenBenchを使用する前に、OpenBenchをインストールする必要があります。 uv
高速なPythonパッケージインストーラであり、仮想環境マネージャです。
ステップ1:uvのインストール(まだインストールされていない場合)
uv
インストールは非常に簡単で、公式ドキュメントを参照してください。インストールが完了したら、OpenBench環境の準備を開始します。
ステップ2:仮想環境の作成と有効化
プロジェクトの依存関係を隔離しておくために、新しい仮想環境を作成することをお勧めします。
# 创建一个名为 .venv 的虚拟环境
uv venv
# 激活该虚拟环境 (在Linux或macOS上)
source .venv/bin/activate
ステップ 3: OpenBench のインストール
仮想環境をアクティブにしたら uv
をクリックして OpenBench をインストールしてください。
uv pip install openbench```
这个命令会自动处理所有必需的依赖项。
### **2. 配置 API 密钥**
OpenBench 支持多家模型供应商,你需要设置相应的 API 密钥才能使用它们的模型。密钥通过环境变量进行配置。
```bash
# 示例:设置 Groq 的 API 密钥
export GROQ_API_KEY="你的密钥"
# 示例:设置 OpenAI 的 API 密钥
export OPENAI_API_KEY="你的密钥"
# 示例:设置 Anthropic 的 API 密钥
export ANTHROPIC_API_KEY="你的密钥"```
你只需要设置你计划使用的那个供应商的密钥即可。
### **3. 运行评估任务**
配置完成后,你就可以通过 `bench eval` 命令来运行一个评估任务。
**基本命令格式:**
`bench eval <基准测试名称> --model <模型名称>`
**快速上手示例:**
让我们以`mmlu`基准测试为例,使用Groq提供的`llama-3.3-70b-versatile`模型,并只评估10个样本。
```bash
bench eval mmlu --model groq/llama-3.3-70b-versatile --limit 10
mmlu
これはベンチマークテストの名前です。--model groq/llama-3.3-70b-versatile
評価するモデルを指定する。--limit 10
データセットから10サンプルだけがテスト用に選択されたことを示す。
評価タスクが完了すると、結果はデフォルトでプロジェクトディレクトリの ./logs/
フォルダー
4.評価結果の閲覧
結果を見るには2つの方法がある:
方法1:ログファイルを直接見る
結果ログは、プレーンテキストまたはJSONファイルです。 ./logs/
ディレクトリでログファイルを見ることができる。
アプローチ2:インタラクティブなインターフェースの使用
OpenBenchは、結果を表示するための、よりユーザーフレンドリーでインタラクティブなインターフェイスを提供します。
bench view
```该命令会启动一个本地服务,让你可以在浏览器中直观地浏览和分析历次评估的结果。
### **5. 主要命令和常用选项**
OpenBench 的核心功能通过 `bench` 命令暴露。
- `bench --help`: 显示所有可用的命令和全局选项。
- `bench list`: 列出所有可用的基准测试、模型和标志。
- `bench eval <benchmark>`: 运行指定的基准测试。
- `bench view`: 启动交互式界面查看日志。
#### **`eval` 命令的关键选项**
`eval` 命令支持丰富的选项来控制评估流程,你可以通过命令行参数或环境变量来设置。
| 选项 | 环境变量 | 描述 |
| --- | --- | --- |
| `--model` | `BENCH_MODEL` | 指定要评估的一个或多个模型。 |
| `--limit` | `BENCH_LIMIT` | 限制评估样本的数量,可以是具体数字或范围(如`10,20`)。 |
| `--temperature` | `BENCH_TEMPERATURE` | 设置模型的生成温度,影响输出的随机性。 |
| `--max-connections`| `BENCH_MAX_CONNECTIONS`| 设置与模型API的最大并行连接数,默认为10。 |
| `--logfile` | `BENCH_OUTPUT` | 指定保存结果的日志文件路径。 |
| `--sandbox` | `BENCH_SANDBOX` | 指定代码执行的环境,如`local`或`docker`,用于HumanEval等编码测试。 |
| `--json` | 无 | 如果设置此项,结果将以JSON格式输出。 |
### **6. 使用不同供应商或本地模型**
你可以轻松切换不同的模型供应商。
```bash
# 使用 OpenAI 的模型
bench eval humaneval --model openai/o3-2025-04-16
# 使用 Google 的模型
bench eval mmlu --model google/gemini-2.5-pro
# 使用通过 Ollama 运行的本地模型
# 确保 Ollama 服务正在运行
bench eval musr --model ollama/llama3.1:70b
7.ハグする顔のデータセットのダウンロードの取り扱い
ベンチマークによっては、Hugging Faceからデータセットをダウンロードする必要があります。もし "gated "エラーが発生した場合、そのデータセットにはユーザー認証が必要です。Hugging Faceのアクセストークンを設定する必要があります。
export HF_TOKEN="你的HuggingFace令牌"
上記の手順が完了したら bench eval
コマンドで解決する。
アプリケーションシナリオ
- モデリング研究開発
新しい言語モデルを開発している研究者や開発者は、OpenBenchを使用して、複数の業界標準ベンチマークで新しいモデルの性能を迅速にテストし、既存の主流モデルと定量的に比較して、モデルの改良を検証することができます。 - モデルの選択と調達
ビジネスに適した言語モデルを選択する企業やチームは、OpenBenchを活用することで、異なるベンダー(OpenAI、Google、Anthropicなど)の候補モデルを統一的かつ公平に性能評価し、データに基づいた意思決定を行うことができます。 - 継続的インテグレーションと回帰テスト
モデルの頻繁な微調整や反復を必要とするシナリオでは、OpenBenchをCI/CDプロセスに統合することができます。モデルが更新されるたびに、標準化されたベンチマークセットが自動的に実行され、モデル性能に予期せぬ劣化がないことを確認します。 - ローカルモデルの性能評価
OpenBenchはローカルのOllamaサービスに接続し、これらのローカルモデルの知識、推論、コーディング能力を完全に評価することができます。
品質保証
- OpenBenchとInspect AIの違いは何ですか?
OpenBenchは、Inspect AIフレームワークの上に構築されたベンチマーク・ライブラリである。Inspect AIが基礎となる評価機能とツールを提供し、その上にOpenBenchが20以上の主流ベンチマークの既製の実装、統一されたコマンドラインツール、レビュー間で共有されるユーティリティ(数学スコアラーなど)を提供する、と理解することができる。OpenBenchは標準化されたベンチマークの実行プロセスを合理化し、開発者のエクスペリエンスを向上させることに重点を置いている。 - なぜlm-evaluation-harnessやlightevalのような他のツールではなくOpenBenchを選ぶのですか?
これらのツールはそれぞれ独自のフォーカスを持っていますが、OpenBenchの主な強みは、ベンチマークの実装が明確で、理解しやすく、修正しやすいことです。共有コンポーネントによってベンチマーク間のコードの重複を減らし、クリーンなコマンドラインツールと一貫したデザインパターンによって開発者のエクスペリエンスを最適化します。拡張や保守が容易で、可読性の高い評価コードを持つツールが必要であれば、OpenBenchは良い選択です。 - 仮想環境以外での使用方法
bench
注文は?
システム内のどのパスからでも直接呼び出せるようにしたい場合bench
コマンドを使用すると、毎回仮想環境を有効にする代わりに、プロジェクトをローカルにクローンした後で、編集可能モードのインストールを行うために以下のコマンドを実行できます:uv run pip install -e .
. - レビューを実行すると、HuggingFaceがログインを要求します。
これは通常、レビューに必要なデータセットがHuggingFace上で保護(ゲート)されているためです。HuggingFaceのアクセストークンを取得し、環境変数HF_TOKEN
を指定してください。例export HF_TOKEN="hf_xxxxxxxx"
その後、レビュー・コマンドを再実行する。