要通过OpenBench评估本地部署的LLM模型,可按以下步骤操作:
- 使用Ollama在本地部署所需模型(如llama3等开源模型),确保服务正常启动
- 在OpenBench运行环境配置Ollama的API端点(默认为http://localhost:11434)
- 执行评估命令:
bench eval mmlu --model ollama/模型名称:版本 --limit 50
- 可通过
--temperature
参数调整生成结果随机性,使用--max-tokens
控制输出长度 - 评估完成后,使用
bench view
命令在浏览器查看交互式报告
该方法特别适用于需离线评估或数据敏感的场景,可全面测试模型的推理、知识掌握等核心能力。
本答案来源于文章《OpenBench:一个用于评估语言模型的开源基准测试工具》