Spezifische Szenarien für die Einbindung von OpenBench in ein kontinuierliches Integrationssystem:
- Setzen Sie die Umgebungsvariable API-Schlüssel in der CI-Konfiguration (z. B.
OPENAI_API_KEY
) - Verwenden Sie ein Docker-Image oder installieren Sie die uv/OpenBench-Umgebung direkt
- Schreiben von Testskripten und Beispielen:
bench eval mmlu --model 待测模型 --json > results.json
- Parsing von JSON-Ergebnissen mit Hilfe von Tools wie jq, Festlegen von Genauigkeitsschwellenwerten zur Auslösung von Build-Fehlern (z. B. <80%)
- Empfohlen wird die gleichzeitige Ausführung
humaneval
Codierung von Tests undaime
Mathe-Tests sind eine mehrdimensionale Bewertung - Archivieren Sie historische Ergebnisse in CI-Artefakten für einfache Leistungsvergleiche zwischen Versionen.
Dieses Verfahren eignet sich besonders für Regressionstests nach der Feinabstimmung des Modells, um Probleme mit Leistungseinbußen rechtzeitig zu erkennen.
Diese Antwort stammt aus dem ArtikelOpenBench: ein quelloffenes Benchmarking-Tool zur Bewertung von SprachmodellenDie