MCPMark评估流程详解
使用MCPMark进行模型评估通常包含四个关键步骤:
1. Preparation for installation
根据前文描述完成工具安装和环境配置
2. 服务授权
为需要测试的服务(GitHub/Notion等)配置API访问权限
3. 运行评估
- 全量测试:
python -m pipeline --exp-name 实验名 --mcp 环境 --tasks all --models 模型名 --k 尝试次数
- 分组测试:可指定特定任务组如online_resume
4. 结果分析
- 原始结果保存在
./results/
catalogs - 使用聚合命令生成报告:
python -m src.aggregators.aggregate_results --exp-name 实验名
每次实验都会生成JSON和CSV格式的详细报告,支持多种指标的多维度分析。
This answer comes from the articleMCPMark:大模型集成MCP执行智能体任务能力基准测试The