ローカルにデプロイされたLLMモデルをOpenBenchで評価するには、以下の手順に従います:
- Ollama(llama3などのオープンソースモデルなど)を使って必要なモデルをローカルにデプロイし、サービスが適切に開始されるようにする。
- OpenBenchランタイム環境でOllamaのAPIエンドポイントを設定する(デフォルトはhttp://localhost:11434)。
- 評価オーダーを実行する:
bench eval mmlu --model ollama/模型名称:版本 --limit 50
- 可
--temperature
パラメータを使用して、生成結果のランダム性を調整します。--max-tokens
制御出力長 - アセスメントが完了したら
bench view
ブラウザでインタラクティブなレポートを表示するコマンド
この方法は、オフラインでの評価やデータの感度を必要とするシナリオに特に適しており、推論や知識獲得といったモデルの中核となる能力を総合的にテストすることができる。
この答えは記事から得たものである。OpenBench: 言語モデル評価のためのオープンソースベンチマークツールについて