通过OpenBench进行多模型对比测试时,可采用以下优化策略:
- 使用
--max-connections
参数调整并发请求数(默认10),根据API配额合理设置 - 对
bench eval
命令使用--model
多参数值同时测试多个模型,如:--model groq/llama-3.3-70b openai/o3-2025-04-16
- 通过
--limit
先进行小样本测试(如50条),验证流程正确性后再全量运行 - 对于计费API模型,配合
--json
输出中间结果防止意外中断 - 将高频测试模型的结果缓存到
./logs/
目录,通过bench view
进行横向对比
本答案来源于文章《OpenBench:一个用于评估语言模型的开源基准测试工具》