O OpenBench tem uma extensa coleção de benchmarks incorporados, com mais de 20, que cobrem de forma abrangente todas as principais dimensões da capacidade de modelagem de linguagem. O domínio Knowledge contém o benchmark MMLU para avaliar o conhecimento mundial do modelo, o domínio Reasoning contém testes especializados, como o GPQA, a avaliação da competência de codificação é implementada por meio do HumanEval e a competência matemática contém testes especializados, como o AIME, o HMMT e outros testes de nível de competição.
O openBench integra esses testes por meio de uma interface unificada, permitindo que os desenvolvedores obtenham simultaneamente o desempenho do modelo em diferentes dimensões de capacidade por meio de comandos simples, aumentando consideravelmente a eficiência da avaliação.
Essa resposta foi extraída do artigoOpenBench: uma ferramenta de benchmarking de código aberto para avaliar modelos de linguagemO