海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする

MCPMark是一个用于评估大模型智能体(Agentic)能力的基准测试。它通过在一系列集成了模型上下文协议(MCP)的真实软件环境中,对模型进行压力测试,来衡量其自主规划、推理和执行复杂任务的水平。测试环境覆盖了Notion、GitHub、文件系统、Postgres数据库以及Playwright等多种主流工具。该项目为研究人员和工程师设计,通过安全的沙盒机制、可复现的自动化任务和统一的评估指标,提供了一个客观、可靠的评估平台。

 

機能一覧

  • 多样的测试环境: 支持在六种真实且复杂的软件环境中进行测试,包括NotionそしてGitHubそしてFilesystemそしてPostgresそしてPlaywright歌で応えるPlaywright-WebArena.
  • 自动化的任务验证: 每个测试任务都配有严格的自动化验证脚本,能够客观、可复现地对任务完成情况进行评估。
  • 安全的沙盒机制: 所有任务都在独立的沙盒环境中运行,任务结束后环境即被销毁,不会泄露或污染用户的个人数据。
  • 失败自动续跑: 当实验因网络波动等管道错误(Pipeline Error)中断后,重新运行时会自动跳过已完成的任务,并重试之前失败的任务。
  • 豊富な評価指標: 支持生成多种聚合指标,包括pass@1そしてpass@Kそしてpass^K歌で応えるavg@K,用于全面衡量模型的单次成功率和多次尝试的稳定性。
  • 柔軟な展開オプション: 支持通过Pip在本地(macOS、Linux)安装,也提供了Docker镜像,方便快速部署和运行。

ヘルプの使用

使用MCPMark评估模型通常遵循以下四个步骤:

1. 安装MCPMark

你可以选择本地安装或使用Docker。
本地安装 (Pip):

# 从GitHub克隆仓库
git clone https://github.com/eval-sys/mcpmark.git
cd mcpmark
# 安装依赖
pip install -e .

Docker安装:

# 克隆仓库后,直接构建Docker镜像
./build-docker.sh```

### **2. 授权服务**
如果你需要测试GitHub或Notion相关的任务,你需要先根据官方文档进行授权,让MCPMark能够以编程方式访问这些服务。

### **3. 配置环境变量**
在项目根目录创建一个名为<code>.mcp_env</code>的文件,并填入你需要的模型API密钥和相关服务的授权凭证。
```dotenv
# 示例:配置OpenAI模型
OPENAI_BASE_URL="https://api.openai.com/v1"
OPENAI_API_KEY="sk-..."

# 示例:配置GitHub
GITHUB_TOKENS="your_github_token"
GITHUB_EVAL_ORG="your_eval_org"

# 示例:配置Notion
SOURCE_NOTION_API_KEY="your_source_notion_api_key"
EVAL_NOTION_API_KEY="your_eval_notion_api_key"

4. 运行评估实验

你可以根据需求,运行不同范围的任务。

# 假设实验名为 new_exp,模型为 gpt-4.1,环境为 notion,运行K次

# 评估该环境下的所有任务
python -m pipeline --exp-name new_exp --mcp notion --tasks all --models gpt-4.1 --k K

# 评估一个任务组 (例如 online_resume)
python -m pipeline --exp-name new_exp --mcp notion --tasks online_resume --models gpt-4.1 --k K

5. 查看与聚合结果

实验结果会以JSON和CSV格式保存在./results/目录中。如果你的运行次数K大于1,可以运行以下命令来生成聚合报告。

python -m src.aggregators.aggregate_results --exp-name new_exp

アプリケーションシナリオ

  1. 评估模型的智能体能力
    研究机构和开发者可以使用此基准,客观衡量不同前沿AI模型在处理复杂工作流时的自主规划、推理和工具使用能力,而不仅仅是简单的API调用。
  2. AI智能体回归测试
    对于开发AI智能体应用的团队,MCPMark可以作为一个标准的回归测试集,确保模型或应用的迭代更新不会导致其智能体能力的退化。
  3. 智能体AI的学术研究
    学者可以利用这个标准化的平台来发布可复现的关于AI智能体能力的研究成果,推动整个领域的进步。
  4. 验证业务流程的自主化水平
    企业可以利用MCPMark来测试AI模型在特定业务场景(如代码仓库管理、数据库操作)中能够达到的自主自动化水平。

品質保証

  1. MCPMark到底是什么?
    它是一个标准的基准测试工具,不是一个普通用户使用的AI应用。它的核心目的是提供一套可靠的环境和任务,用来科学地评估和比较不同AI大模型作为“智能体”(Agent)自主完成复杂任务的能力。
  2. 什么是MCP(模型上下文协议)?
    MCP(Model Context Protocol)是一套技术标准和协议,用于规范AI大模型与外部工具和软件环境之间的交互方式。MCPMark正是基于这套协议构建的,以确保模型与环境的互动是可控、可衡量且可复现的。
  3. 运行MCPMark测试是否安全?
    是的,非常安全。它在为每次实验创建的、完全隔离的沙盒环境中运行。任务一结束,这个环境就会被彻底销毁,因此不会触碰或修改你本机的任何个人文件或账户数据。
  4. 什么是pass@K指标?
    pass@K是衡量模型可靠性的一个关键指标。它表示在K次独立的尝试中,模型至少有一次成功完成任务的概率。这个指标越高,说明模型完成任务的智能体能力越稳定可靠。
0ブックマークに登録
0表彰される

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語