Die Bewertung eines Modells mit OpenBench erfolgt in fünf Hauptschritten:
- Umweltgebäude: durch
uv venv
Erstellen einer virtuellen Umgebung und Installieren des openbench-Pakets - Schlüssel Konfiguration: Setzen Sie den API-Schlüssel des Zielmodells (z. B.
export OPENAI_API_KEY='密钥'
) - Start der Mission (Computertechnik): Lauf
bench eval
Angabe von Benchmark-Tests (z. B. mmlu) und Modellen (z. B. groq/llama-3.3-70b) - Parametrisierung: Wahlweise durch
--limit
Begrenzung des Stichprobenumfangs oder--temperature
Regulierung der Stochastik - Ergebnisse Ansicht: Verwendung
bench view
Starten Sie die interaktive Schnittstelle oder zeigen Sie sie direkt an./logs/
Protokolldateien unter
Der gesamte Prozess kann in der Regel in weniger als 10 Minuten für den ersten Validierungstest abgeschlossen werden.
Diese Antwort stammt aus dem ArtikelOpenBench: ein quelloffenes Benchmarking-Tool zur Bewertung von SprachmodellenDie