O MCPMark é um teste de referência para avaliar os recursos de grandes inteligências de modelo (Agentic). Ele mede o nível de autonomia de um modelo no planejamento, raciocínio e execução de tarefas complexas, testando-o em uma variedade de ambientes de software reais que integram o protocolo de contexto de modelo (MCP). Os ambientes de teste abrangem uma ampla gama de ferramentas convencionais, como Notion, GitHub, sistemas de arquivos, bancos de dados Postgres e Playwright. Criado para pesquisadores e engenheiros, o projeto oferece uma plataforma de avaliação objetiva e confiável por meio de um mecanismo de sandbox seguro, tarefas automatizadas reproduzíveis e métricas de avaliação unificadas.
Lista de funções
- Ambientes de teste versáteisSuporte para testes em seis ambientes de software realistas e complexos, incluindo
Notion
eGitHub
eFilesystem
ePostgres
ePlaywright
responder cantandoPlaywright-WebArena
. - Validação automatizada de tarefas: cada tarefa de teste é acompanhada por um rigoroso script de validação automatizada que permite uma avaliação objetiva e reproduzível da conclusão da tarefa.
- Mecanismo de sandboxing seguroObservação: todas as tarefas são executadas em um ambiente de sandbox separado, que é destruído no final da tarefa, sem vazar ou contaminar os dados pessoais do usuário.
- Falha na renovação automáticaQuando um experimento é interrompido devido a um erro de pipeline, como uma flutuação de rede, a tarefa concluída é automaticamente ignorada e a tarefa que falhou anteriormente é repetida quando o experimento é executado novamente.
- Conjunto rico de indicadores de avaliaçãoSuporte para gerar várias métricas agregadas, incluindo
pass@1
epass@K
epass^K
responder cantandoavg@K
que é usado para fornecer uma medida abrangente da taxa de sucesso única e da estabilidade do modelo em várias tentativas. - Opções flexíveis de implementaçãoSuporte à instalação local (macOS, Linux) via Pip e também fornece imagens do Docker para implantação e operação rápidas.
Usando a Ajuda
O uso do modelo de avaliação da MCPMark normalmente segue as quatro etapas a seguir:
1. instalação do MCPMark
Você pode optar por instalar localmente ou usar o Docker.
Instalação local (Pip).
# 从GitHub克隆仓库
git clone https://github.com/eval-sys/mcpmark.git
cd mcpmark
# 安装依赖
pip install -e .
Instalação do Docker.
# 克隆仓库后,直接构建Docker镜像
./build-docker.sh```
### **2. 授权服务**
如果你需要测试GitHub或Notion相关的任务,你需要先根据官方文档进行授权,让MCPMark能够以编程方式访问这些服务。
### **3. 配置环境变量**
在项目根目录创建一个名为<code>.mcp_env</code>的文件,并填入你需要的模型API密钥和相关服务的授权凭证。
```dotenv
# 示例:配置OpenAI模型
OPENAI_BASE_URL="https://api.openai.com/v1"
OPENAI_API_KEY="sk-..."
# 示例:配置GitHub
GITHUB_TOKENS="your_github_token"
GITHUB_EVAL_ORG="your_eval_org"
# 示例:配置Notion
SOURCE_NOTION_API_KEY="your_source_notion_api_key"
EVAL_NOTION_API_KEY="your_eval_notion_api_key"
4. experimento de avaliação operacional
Você pode executar diferentes intervalos de tarefas conforme necessário.
# 假设实验名为 new_exp,模型为 gpt-4.1,环境为 notion,运行K次
# 评估该环境下的所有任务
python -m pipeline --exp-name new_exp --mcp notion --tasks all --models gpt-4.1 --k K
# 评估一个任务组 (例如 online_resume)
python -m pipeline --exp-name new_exp --mcp notion --tasks online_resume --models gpt-4.1 --k K
5. visualização e agregação de resultados
Os resultados serão salvos nos formatos JSON e CSV na pasta./results/
diretório. Se sua contagem de execuções K for maior que 1, você poderá executar o seguinte comando para gerar um relatório de agregação.
python -m src.aggregators.aggregate_results --exp-name new_exp
cenário do aplicativo
- Avaliação dos recursos de corpo inteligente dos modelos
As organizações de pesquisa e os desenvolvedores podem usar esse benchmark para medir objetivamente a capacidade de diferentes modelos de IA de ponta para planejar, raciocinar e usar ferramentas de forma autônoma ao lidar com fluxos de trabalho complexos, e não apenas com simples chamadas de API. - Inteligência de IA Teste de regressão corporal
Para as equipes que desenvolvem aplicativos de smartbody de IA, o MCPMark pode ser usado como um conjunto de testes de regressão padrão para garantir que as atualizações iterativas do modelo ou aplicativo não resultem na degradação de seus recursos de smartbody. - Pesquisa acadêmica sobre IA de corpos inteligentes
Os acadêmicos podem usar essa plataforma padronizada para publicar resultados de pesquisa reproduzíveis sobre os recursos das inteligências de IA, promovendo o avanço do campo como um todo. - Validar o nível de autonomia dos processos de negócios
As organizações podem usar o MCPMark para testar o nível de automação autônoma que os modelos de IA podem alcançar em cenários comerciais específicos (por exemplo, gerenciamento de repositório de código, operações de banco de dados).
QA
- O que é exatamente o MCPMark?
É uma ferramenta de benchmarking padrão, não um aplicativo de IA para usuários em geral. Seu objetivo principal é fornecer um conjunto de ambientes e tarefas confiáveis para avaliar e comparar cientificamente a capacidade de diferentes macromodelos de IA de realizar tarefas complexas de forma autônoma como "agentes". - O que é MCP (Model Context Protocol)?
O MCP (Model Context Protocol) é um conjunto de padrões e protocolos técnicos que regem a maneira como os macromodelos de IA interagem com ferramentas externas e ambientes de software. O MCPMark foi desenvolvido com base nesse conjunto de protocolos para garantir que a interação dos modelos com seus ambientes seja controlada, mensurável e reproduzível. - É seguro executar o teste do MCPMark?
Sim, é muito seguro. Ele é executado em um ambiente sandbox completamente isolado criado para cada experimento. Assim que a missão termina, esse ambiente é completamente destruído, de modo que nenhum arquivo pessoal ou dado de conta em seu computador local é tocado ou modificado. - O que é o indicador pass@K?
pass@K
é uma medida importante da confiabilidade do modelo. Ela indica a probabilidade de o modelo concluir com êxito a tarefa pelo menos uma vez em K tentativas independentes. Quanto mais alta for essa métrica, mais estável e confiável será a capacidade do modelo de concluir a tarefa como um corpo inteligente.