Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Die pass@K-Metrik ist der Goldstandard für die Messung der Stabilität von KI-Intelligenzen

2025-08-28 283

Quantitatives Indikatorensystem für die Bewertung der Kapazität des intelligenten Körpers

Die von MCPMark entwickelte Bewertungsmetrik pass@K definiert die Dimensionen der Leistungsmessung von KI-Intelligenzen neu. Die Metrik unterscheidet effektiv zwischen dem einmaligen Ausbruch und der kontinuierlichen Stabilität eines Modells, indem sie die Erfolgsrate der Aufgabe in K unabhängigen Versuchen berechnet. Bei einer spezifischen Implementierung erfasst das System die mehrdimensionale Leistung des Modells in Bezug auf die Genauigkeit der Codeeingabe, die Vollständigkeit der Prozessschritte und die Angemessenheit der Ausnahmebehandlung und erstellt schließlich einen dreidimensionalen Bewertungsbericht, der pass@1 (Erfolgsrate beim ersten Mal), pass@5 (Erfolgsrate innerhalb von fünf Versuchen) und avg@K (durchschnittliche Leistungsbewertung) enthält.

Im Vergleich zur binären Beurteilung beim herkömmlichen Benchmarking kann dieser Mehrrunden-Verifizierungsmechanismus die Zuverlässigkeit der Intelligenz in realen Geschäftsszenarien genauer wiedergeben. Im GitHub-Aufgabengruppentest kann ein hochwertiges Modell beispielsweise eine Pass@5-Pass-Rate von 90%+ aufweisen, aber nur eine Pass@1-Performance von 70%. Diese Datendiskrepanz offenbart das Potenzial des Modells, die Aufgabenerfüllung durch Selbstkorrektur zu verbessern, was eine wichtige Referenz für die Entwicklung von Fehlertoleranzmechanismen für Intelligenzen darstellt.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch