問題の背景と現状
MCPMarkは、標準化されたテストフレームワークと実際のソフトウェア統合環境を提供することで、この問題を根本的に解決することができます。
コアソリューション
- 環境標準化テストシナリオがビジネスシナリオと整合していることを確認するために、6つの実際のツール環境(Notion/GitHubなど)を統合する。
- 指標の調和評価結果の主観的な差異を排除するために、pass@1/pass@Kのような4つの集計指標を提供する。
- プロセスオートメーション検証スクリプトを持つ各タスクは、結果が再現できるように自動的に更新される。
操作ガイド
1.DockerまたはPipによる環境の迅速なデプロイ
2.mcp_env ファイルを構成して、測定モデル API に接続します。
3.コマンドラインを使用したテストタスクの実行(フル/グループテストのサポート)
4.CSV/JSON形式の標準化されたレポートの作成
この答えは記事から得たものである。MCPMark:インテリジェント・ボディ・タスクを実行するためにMCPを統合する大規模モデルの能力をベンチマークするについて































