アカデミック・ペインポイント
既存のAIインテリジェンス研究は、不透明なテスト環境やテストデータの非開示により、結果の検証が困難な場合が多い。
ソリューション・ハイライト
- オープンソースフレームワークすべてのテスト環境と検証スクリプトは完全にオープンソースです。
- コンテナ化サポートDockerイメージは、クロスプラットフォーム環境の一貫性を保証します。
- データ仕様結果ファイルには、環境パラメーターとランダムシードがすべて含まれるように強制される。
コンクリート作業
1.論文に記載されているMCPMarkのバージョン番号と使用環境の組み合わせ
2.生のテストデータをresultsディレクトリに公開する。
3.mcp_envテンプレートを提供する(機密情報を無感覚にできる)
4.方法論の項に、使用した集計指標(例:pass^K)を記載する。
サンプルアプリケーション
GitHubタスクグループにおける異なるモデルのavg@K値の比較研究により、コードコラボレーション能力の安定性の違いを分析する
この答えは記事から得たものである。MCPMark:インテリジェント・ボディ・タスクを実行するためにMCPを統合する大規模モデルの能力をベンチマークするについて































