WritingBench bietet einen doppelten Bewertungsmechanismus, um die Zuverlässigkeit der Bewertungsergebnisse zu gewährleisten. Der erste ist ein automatisches Bewertungssystem, das auf einem großen Modell basiert. Benutzer können die Konfigurationsdatei evaluator/llm.py bearbeiten und auf ihre eigenen API-Endpunkte zugreifen, um die Bewertungsfunktion zu erreichen. Das zweite ist ein spezielles Bewertungsmodell, das auf dem Qwen-7B-Modell basiert. Die Benutzer müssen das spezifische Modell von der HuggingFace-Plattform herunterladen, bevor sie es verwenden können.
Beide Beurteilungen verwenden eine standardisierte 5-Punkte-Rubrik mit einer Bewertungsspanne von 0-10. Das Bewertungsskript gibt automatisch eine Punktzahl für jedes Kriterium und eine spezifische Begründung aus, z. B. ein detailliertes Feedback wie "Inhaltliche Vollständigkeit: 8/10, deckt Kernelemente ab, aber einige Details fehlen".
Dieses zweigleisige Konzept berücksichtigt die Effizienz der Bewertung und gewährleistet die Qualität der Punktevergabe, so dass die Benutzer die Flexibilität haben, die am besten geeignete Bewertungsmethode entsprechend ihren tatsächlichen Bedürfnissen zu wählen.
Diese Antwort stammt aus dem ArtikelWritingBench: ein Benchmark-Bewertungsinstrument zum Testen der Schreibfähigkeiten von großen ModellenDie































