Um ein lokal eingesetztes LLM-Modell über OpenBench zu evaluieren, gehen Sie wie folgt vor:
- Setzen Sie die erforderlichen Modelle lokal mit Ollama ein (z. B. Open-Source-Modelle wie llama3), um sicherzustellen, dass der Dienst ordnungsgemäß startet.
- Konfigurieren Sie die API-Endpunkte von Ollama in der OpenBench-Laufzeitumgebung (Standard ist http://localhost:11434)
- Führen Sie den Auswertungsauftrag aus:
bench eval mmlu --model ollama/模型名称:版本 --limit 50
- passabel
--temperature
um die Zufälligkeit der generierten Ergebnisse mit Hilfe des Parameters--max-tokens
Länge des Steuerausgangs - Sobald die Bewertung abgeschlossen ist, verwenden Sie die
bench view
Befehl zum Anzeigen interaktiver Berichte in einem Browser
Die Methode eignet sich besonders für Szenarien, die eine Offline-Bewertung oder Datenempfindlichkeit erfordern, und kann die Kernfähigkeiten des Modells wie Schlussfolgerungen und Wissenserwerb umfassend testen.
Diese Antwort stammt aus dem ArtikelOpenBench: ein quelloffenes Benchmarking-Tool zur Bewertung von SprachmodellenDie