海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

OpenBenchは、知識、推論、コーディング、数学をカバーする20以上のベンチマークをサポートしています。

2025-08-19 229

OpenBenchには、言語モデリング能力のすべての主要な次元を包括的にカバーする、20を超える広範なベンチマークが組み込まれています。知識領域にはモデルの世界知識を評価するMMLUベンチマークが、推論領域にはGPQAなどの専門テストが、コーディング能力評価にはHumanEvalが、数学能力にはAIMEやHMMTなどの競技レベルの専門テストが含まれています。

openBenchは、統一されたインターフェイスを通じてこれらのテストを統合し、開発者が簡単なコマンドで異なる能力次元のモデル性能を同時に取得できるようにすることで、評価効率を大幅に向上させます。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語