Como estender o OpenBench para oferecer suporte a novos benchmarks?

2025-08-19

245

Com base na extensibilidade da estrutura inspect-ai, as etapas para adicionar um novo teste de benchmark são as seguintes:

No diretório do projeto dobenchmarks/Novo módulo Python sob herançaBaseBenchmarkassemelhar-se
realizaçãoload_dataset()responder cantandoevaluate()Metodologia, definição da lógica de avaliação
Por meio de um decorador@register_benchmarkRegistre-se para testes, defina metadados (categoria, dificuldade, etc.)
recém-construídoconftest.pyAdicionar lógica de download de conjunto de dados (as permissões do HuggingFace precisam ser tratadas)
fazer uso deuv run pytest benchmarks/新测试名implementação de verificação
aprovar (um projeto de lei ou inspeção etc.)bench listConfirme se o novo teste foi exibido na lista disponível

Recomenda-se fazer referência a implementações existentes de testes, como o MMLU, para manter o estilo do código uniforme.

Ferramenta de IA da estação de consulta rápida