MCPMark-Bewertungsprozess erklärt
Die Modellevaluierung mit MCPMark umfasst in der Regel vier wichtige Schritte:
1. die Vorbereitung der Installation
Vervollständigen Sie die Tool-Installation und Umgebungskonfiguration gemäß der vorherigen Beschreibung
2. die Genehmigung von Dienstleistungen
Konfigurieren Sie den API-Zugang für die zu testenden Dienste (GitHub/Notion usw.)
3. operationelle Bewertung
- Prüfung der vollen Lautstärke:
python -m pipeline --exp-name 实验名 --mcp 环境 --tasks all --models 模型名 --k 尝试次数 - Gruppenprüfung: Es können bestimmte Aufgabengruppen wie z. B. online_resume angegeben werden.
4. die Analyse der Ergebnisse
- Die Rohergebnisse werden in der Datei
./results/Verzeichnis (auf der Festplatte des Computers) - Verwenden Sie den Aggregationsbefehl, um Berichte zu erstellen:
python -m src.aggregators.aggregate_results --exp-name 实验名
Für jedes Experiment werden detaillierte Berichte in den Formaten JSON und CSV erstellt, die mehrdimensionale Analysen mehrerer Metriken unterstützen.
Diese Antwort stammt aus dem ArtikelMCPMark: Benchmarking der Fähigkeit großer Modelle zur Integration von MCP zur Durchführung von Aufgaben des intelligenten KörpersDie




























