Quantitatives Indikatorensystem für die Bewertung der Kapazität des intelligenten Körpers
Die von MCPMark entwickelte Bewertungsmetrik pass@K definiert die Dimensionen der Leistungsmessung von KI-Intelligenzen neu. Die Metrik unterscheidet effektiv zwischen dem einmaligen Ausbruch und der kontinuierlichen Stabilität eines Modells, indem sie die Erfolgsrate der Aufgabe in K unabhängigen Versuchen berechnet. Bei einer spezifischen Implementierung erfasst das System die mehrdimensionale Leistung des Modells in Bezug auf die Genauigkeit der Codeeingabe, die Vollständigkeit der Prozessschritte und die Angemessenheit der Ausnahmebehandlung und erstellt schließlich einen dreidimensionalen Bewertungsbericht, der pass@1 (Erfolgsrate beim ersten Mal), pass@5 (Erfolgsrate innerhalb von fünf Versuchen) und avg@K (durchschnittliche Leistungsbewertung) enthält.
Im Vergleich zur binären Beurteilung beim herkömmlichen Benchmarking kann dieser Mehrrunden-Verifizierungsmechanismus die Zuverlässigkeit der Intelligenz in realen Geschäftsszenarien genauer wiedergeben. Im GitHub-Aufgabengruppentest kann ein hochwertiges Modell beispielsweise eine Pass@5-Pass-Rate von 90%+ aufweisen, aber nur eine Pass@1-Performance von 70%. Diese Datendiskrepanz offenbart das Potenzial des Modells, die Aufgabenerfüllung durch Selbstkorrektur zu verbessern, was eine wichtige Referenz für die Entwicklung von Fehlertoleranzmechanismen für Intelligenzen darstellt.
Diese Antwort stammt aus dem ArtikelMCPMark: Benchmarking der Fähigkeit großer Modelle zur Integration von MCP zur Durchführung von Aufgaben des intelligenten KörpersDie




























