XRAG konstruiert die derzeit vollständigste RAG-Bewertungsmatrix, die drei Ebenen enthält: die traditionelle Indikatorenebene (MRR, Recall), die Ebene der Tiefenanalyse (Heatmap der Verteilung der Abfrageergebnisse) und die intelligente LLM-Bewertungsebene (Erkennung von Antworthalluzinationen). Im Vergleich zu eindimensionalen Testwerkzeugen verwendet es innovativ antagonistische Probeninjektionstechniken (z. B. absichtliches Einmischen von falschen Segmenten), um die Anti-Interferenz-Fähigkeit des Systems quantitativ zu bewerten. Im HotpotQA-Benchmark-Test stellt XRAG fest, dass die herkömmliche "High-Score"-Konfiguration des 38% in Wirklichkeit schwerwiegende kontextuelle Missverständnisse aufweist. Das Tool kann auch die Leistungsfehler verschiedener Retrieval-Strategien (dicht vs. spärlich) bei unterschiedlichen Problemkomplexitäten visualisieren und bietet so Datenunterstützung für die Abstimmung auf Modulebene.
Diese Antwort stammt aus dem ArtikelXRAG: Ein visuelles Bewertungsinstrument zur Optimierung von Systemen zur RetrievalverbesserungDie































