Akademische Schmerzpunkte
Bei der bestehenden Forschung zu KI-Intelligenzen ist es oft schwierig, die Ergebnisse zu validieren, weil die Testumgebungen undurchsichtig sind und die Testdaten nicht offengelegt werden.
Highlights der Lösung
- Open-Source-FrameworkAlle Testumgebungen und Validierungsskripte sind vollständig quelloffen (GitHub-Repository).
- Unterstützung der ContainerisierungDocker-Images gewährleisten die Konsistenz der plattformübergreifenden Umgebung
- DatenspezifikationDie Ergebnisdatei muss die vollständigen Umgebungsparameter und Zufallsseeds enthalten.
konkreter Vorgang
1. die Versionsnummer von MCPMark und die verwendete Umgebungskombination, wie in der Veröffentlichung angegeben
2. die Rohdaten der Tests im Ergebnisverzeichnis veröffentlichen
3. eine .mcp_env-Vorlage bereitstellen (kann sensible Informationen desensibilisieren)
4. im Abschnitt über die Methodik die verwendeten Aggregationsindikatoren (z. B. pass^K) zu beschreiben.
Beispielanwendung
Vergleichende Studie der avg@K-Werte verschiedener Modelle in GitHub-Task-Gruppen zur Analyse von Stabilitätsunterschieden in den Fähigkeiten zur Codezusammenarbeit
Diese Antwort stammt aus dem ArtikelMCPMark: Benchmarking der Fähigkeit großer Modelle zur Integration von MCP zur Durchführung von Aufgaben des intelligenten KörpersDie































