Zentrale Bewertungsindikatoren
- WissenstrefferquoteAnteil der vom Modell korrekt aufgerufenen Wissensbasis (idealerweise >85%)
- Genauigkeit der AblehnungFähigkeit, Fragen, die nicht in den Bereich der Wissensbasis fallen, korrekt abzulehnen
- AntwortgenauigkeitReduzierung der faktischen Fehlerquote im Vergleich zum Basismodell
Methodik der Bewertung
- Verwendung der offiziellen
evaluate.py
Skripted Test Voreingestellter Fragensatz - Konstruktion gegnerischer Probleme zur Prüfung der Unterdrückung von Halluzinationen
- passieren (eine Rechnung oder Inspektion etc.)
experiments/
Das Vergleichsskript unter reproduziert die Ergebnisse der Experimente der Diplomarbeit
Empfehlungen zur Leistungsoptimierung
Verfügbar, wenn die Indikatoren nicht zufriedenstellend sind:Anpassung der Intensität der Wissenseinbettung(Parameter -alpha),Erweiterte Trainingsdaten(Synthetische Daten, erzeugt mit Azure OpenAI),Optimierung der Wissensstrukturen(Kennzeichnung der Beziehungen zwischen den Entitäten hinzufügen). Beachten Sie, dass die Bewertung die Auswirkungen der zugrunde liegenden Modellierungsfähigkeiten isolieren sollte.
Diese Antwort stammt aus dem ArtikelKBLaM: Ein erweitertes Open-Source-Tool zur Einbettung von externem Wissen in große ModelleDie