Com base na extensibilidade da estrutura inspect-ai, as etapas para adicionar um novo teste de benchmark são as seguintes:
- No diretório do projeto do
benchmarks/Novo módulo Python sob herançaBaseBenchmarkassemelhar-se - realização
load_dataset()responder cantandoevaluate()Metodologia, definição da lógica de avaliação - Por meio de um decorador
@register_benchmarkRegistre-se para testes, defina metadados (categoria, dificuldade, etc.) - recém-construído
conftest.pyAdicionar lógica de download de conjunto de dados (as permissões do HuggingFace precisam ser tratadas) - fazer uso de
uv run pytest benchmarks/新测试名implementação de verificação - aprovar (um projeto de lei ou inspeção etc.)
bench listConfirme se o novo teste foi exibido na lista disponível
Recomenda-se fazer referência a implementações existentes de testes, como o MMLU, para manter o estilo do código uniforme.
Essa resposta foi extraída do artigoOpenBench: uma ferramenta de benchmarking de código aberto para avaliar modelos de linguagemO




















