Der Ragas context_recall-Indikator verwendet die Methode der Attributionsanalyse, die von den Entwicklern verlangt, dass sie im Voraus kommentierte Standardantworten (ground truth) vorbereiten. Während der Auswertung vergleicht das System die Standardantwort Satz für Satz mit dem Abrufkontext, klassifiziert sie als [zugeschrieben] oder [nicht zugeschrieben] und nimmt schließlich die Zuschreibungsquote als Punktzahl. Im Fall von Einstein wurden beispielsweise die Informationen zur Geburt und zum Nobelpreis korrekt zugeordnet, während die Anzahl der Veröffentlichungen und die Informationen zum Umzug als "nicht zugeordnet" eingestuft wurden.
Dieser Ansatz erfordert manuelle Etikettierungskosten, bewertet aber die Informationsabdeckungsfähigkeit des Retrievalsystems genau. Sein einzigartiger Wert liegt in der Fähigkeit, "korrekte, aber nicht quellengesicherte" generierte Inhalte zu identifizieren, was besonders für strenge Szenarien wie im akademischen und medizinischen Bereich wichtig ist. Was die Implementierung betrifft, so stützt sich die Metrik auf die feinkörnigen semantischen Verständnisfähigkeiten des LLM, und der Bewertungsprozess umfasst detaillierte Anweisungen zur Ermittlung von Zuordnungen.
Diese Metrik wird von den Entwicklern verwendet, um die Qualität der Annotationen zu gewährleisten, und eignet sich besonders für die Bewertung von RAG-Systemen in Fachgebieten, in denen eine hohe Wiederauffindbarkeit erforderlich ist, und ist der Goldstandard für die Validierung der Vollständigkeit von Suchen.
Diese Antwort stammt aus dem ArtikelRagas: Bewertung der RAG-Rückruf-QA-Genauigkeit und AntwortkorrelationDie































