Basierend auf der Erweiterbarkeit des inspect-ai Frameworks, sind die Schritte zum Hinzufügen eines neuen Benchmark-Tests folgende:
- Im Projektverzeichnis des
benchmarks/
Neues Python-Modul unter VererbungBaseBenchmark
ähneln - Erfüllung
load_dataset()
im Gesang antwortenevaluate()
Methodik, Definition der Bewertungslogik - Mit Hilfe eines Dekorateurs
@register_benchmark
Anmeldung zu Prüfungen, Festlegen von Metadaten (Kategorie, Schwierigkeitsgrad usw.) - neu gebaut
conftest.py
Logik zum Herunterladen von Datensätzen hinzufügen (HuggingFace-Berechtigungen müssen behandelt werden) - ausnutzen
uv run pytest benchmarks/新测试名
Verifikationsimplementierung - passieren (eine Rechnung oder Inspektion etc.)
bench list
Bestätigen Sie, dass der neue Test in der Liste der verfügbaren Tests erschienen ist.
Es wird empfohlen, auf bestehende Implementierungen von Tests wie MMLU zu verweisen, um den Code einheitlich zu gestalten.
Diese Antwort stammt aus dem ArtikelOpenBench: ein quelloffenes Benchmarking-Tool zur Bewertung von SprachmodellenDie