Die Bewertung mit WritingBench ist in die folgenden Hauptschritte unterteilt:
1. die Vorbereitung der Umwelt
Die Datei Requirements.txt muss manuell installiert werden, da sie nicht mit dem Projekt mitgeliefert wird:
- Python 3.8+ Umgebung
- Basisbibliotheken: Torch (GPU-Version empfohlen), Transformers, Requests usw.
2. der Zugang zu den Daten
Nach dem Klonen oder Herunterladen des ZIP-Pakets von GitHub:
- Die Primärdaten werden in derbenchmark_all.jsonlPapiere
- Enthält 1239 Aufgabenbeschreibungen, Referenzmaterialien und Benotungsrubriken
3. die Modellprüfung
Typischer Testablauf:
- Laden des Zielschreibmodells
- Aufgabenbeschreibung lesen, um Text zu erzeugen
- Speichern Sie die generierten Ergebnisse in response.txt
4. die Bewertung der Umsetzung
Zwei Möglichkeiten der Punktevergabe:
- Großes Modell-Scoringllm.py ausführen, nachdem der API-Schlüssel von LLM konfiguriert wurde
- Bewertung der ModellnotenSpezialisiertes Beurteilungsmodell für 7B-Parameter, die im Voraus heruntergeladen werden müssen
Die endgültige Ausgabe enthält detaillierte Bewertungsergebnisse in 5 Dimensionen (z.B. logisch, professionell, etc.), und die Bewertungskriterien können durch Modifizierung von prompt.py angepasst werden.
Diese Antwort stammt aus dem ArtikelWritingBench: ein Benchmark-Bewertungsinstrument zum Testen der Schreibfähigkeiten von großen ModellenDie































