海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

OpenBenchは、知識、推論、コーディング、数学をカバーする20以上のベンチマークをサポートしています。

2025-08-19

451

直接リンクモバイルビュー

OpenBenchには、言語モデリング能力のすべての主要な次元を包括的にカバーする、20を超える広範なベンチマークが組み込まれています。知識領域にはモデルの世界知識を評価するMMLUベンチマークが、推論領域にはGPQAなどの専門テストが、コーディング能力評価にはHumanEvalが、数学能力にはAIMEやHMMTなどの競技レベルの専門テストが含まれています。

openBenchは、統一されたインターフェイスを通じてこれらのテストを統合し、開発者が簡単なコマンドで異なる能力次元のモデル性能を同時に取得できるようにすることで、評価効率を大幅に向上させます。

この答えは記事から得たものである。OpenBench: 言語モデル評価のためのオープンソースベンチマークツールについて

無断転載を禁じます：AI生産性ツール " OpenBenchは、知識、推論、コーディング、数学をカバーする20以上のベンチマークをサポートしています。

おすすめ