学术痛点
现有AI智能体研究常因测试环境不透明、测试数据不公开导致结果难以验证。
解决方案亮点
- 开源框架:所有测试环境和验证脚本完全开源(GitHub仓库)
- 容器化支持:Docker镜像确保跨平台环境一致性
- 数据规范:结果文件强制包含完整环境参数和随机种子
具体操作
1. 论文中注明使用的MCPMark版本号和环境组合
2. 发布results目录下的原始测试数据
3. 提供.mcp_env模板(可脱敏敏感信息)
4. 在方法章节描述采用的聚合指标(如pass^K)
示例应用
对比研究不同模型在GitHub任务组的avg@K值,分析代码协作能力的稳定性差异
本答案来源于文章《MCPMark:大模型集成MCP执行智能体任务能力基准测试》