Die context_relevancy-Metrik von Ragas verwendet innovativ eine Technik zur Extraktion von Kandidatensätzen, um die Qualität der abgerufenen Inhalte zu bewerten. Die Metrik erfordert zunächst, dass der LLM die kleinste Menge von Sätzen aus dem Abfragekontext herausfiltert, die direkt auf die Frage antworten, und leitet dann einen Signal-Rausch-Verhältniswert ab, indem er den Prozentsatz dieser notwendigen Sätze im Volltext berechnet. Bei der Frage "Weltberühmte Gleichungen" wird zum Beispiel nur der beschreibende Satz "E=mc2" als wesentlicher Inhalt gekennzeichnet.
Die algorithmische Umsetzung dieser Metrik beinhaltet eine doppelte Validierung: Die Genauigkeit der extrahierten Sätze wird zunächst durch die Overlap_scores bestätigt, und dann wird die Konsistenz der Extraktionsergebnisse durch die semantische Ähnlichkeit (agr_score) sichergestellt. Im Falle der Analyse chinesischer Mahlzeiten identifiziert das System den Kernsatz der Definition korrekt, und die endgültige Punktzahl spiegelt den Grad der Fokussierung des abgerufenen Inhalts wider.
Diese Metrik kann die Optimierung des Retrievers effektiv leiten und ist besonders geeignet, um die semantische Anpassungsfähigkeit des Einbettungsmodells zu verbessern. Allerdings müssen die Entwickler auf den unterschiedlichen Bewertungseffekt semantischer Modelle in verschiedenen Sprachen achten und das lokalisierte Ähnlichkeitsberechnungsmodell bei Bedarf ersetzen.
Diese Antwort stammt aus dem ArtikelRagas: Bewertung der RAG-Rückruf-QA-Genauigkeit und AntwortkorrelationDie































