基于inspect-ai框架的扩展性,添加新基准测试的步骤为:
- 在项目目录的
benchmarks/
下新建Python模块,继承BaseBenchmark
类 - 实现必需的
load_dataset()
和evaluate()
方法,定义评估逻辑 - 通过装饰器
@register_benchmark
注册测试,设置元数据(类别、难度等) - 新建
conftest.py
添加数据集下载逻辑(需处理HuggingFace权限) - 使用
uv run pytest benchmarks/新测试名
验证实现 - 通过
bench list
确认新测试已出现在可用列表中
建议参考现有MMLU等测试的实现,保持代码风格统一。
本答案来源于文章《OpenBench:一个用于评估语言模型的开源基准测试工具》