Posição atual:fig. início " Respostas da IA

O OpenBench suporta mais de 20 benchmarks que abrangem conhecimento, raciocínio, codificação e matemática

2025-08-19

448

Link diretoVisualização móvel

O OpenBench tem uma extensa coleção de benchmarks incorporados, com mais de 20, que cobrem de forma abrangente todas as principais dimensões da capacidade de modelagem de linguagem. O domínio Knowledge contém o benchmark MMLU para avaliar o conhecimento mundial do modelo, o domínio Reasoning contém testes especializados, como o GPQA, a avaliação da competência de codificação é implementada por meio do HumanEval e a competência matemática contém testes especializados, como o AIME, o HMMT e outros testes de nível de competição.

O openBench integra esses testes por meio de uma interface unificada, permitindo que os desenvolvedores obtenham simultaneamente o desempenho do modelo em diferentes dimensões de capacidade por meio de comandos simples, aumentando consideravelmente a eficiência da avaliação.

Essa resposta foi extraída do artigoOpenBench: uma ferramenta de benchmarking de código aberto para avaliar modelos de linguagemO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " O OpenBench suporta mais de 20 benchmarks que abrangem conhecimento, raciocínio, codificação e matemática