dsRAG erzielt bahnbrechende Verbesserungen bei der Auffindungseffizienz durch die folgende Methode:
1. semantische Segmentierung
LLM analysiert die semantische Struktur von Dokumenten und unterteilt lange Inhalte in logische Abschnitte. Bei juristischen Verträgen beispielsweise identifiziert das System Struktureinheiten wie "Definitionsklauseln" und "Verpflichtungsklauseln", so dass eine anschließende Suche die relevanten Abschnitte aufspüren kann.
2. automatische Kontexterstellung
Generieren Sie dynamisch Metadaten für jeden Textblock, der die folgenden Elemente enthält:
- Titel des Dokuments und Pfad zum Abschnitt
- Zusammenfassung der vorangehenden und folgenden Absätze
- Feld-Schlüsselwort-Tagging
Diese erweiterte Einbettung ermöglicht die Ähnlichkeitssuche, um kontextuelle Zusammenhänge zu verstehen.
3. die Extraktion relevanter Segmente
Die Abfragen werden in zwei Stufen bearbeitet:
- Die relevantesten Textsegmente zuerst abrufen
- und findet dann automatisch semantisch verwandte benachbarte Absätze.
Mit dieser adaptiven Erweiterung bleiben die zurückgegebenen Endergebnisse sowohl fokussiert als auch kontextbezogen. Experimente zeigen, dass diese Methode zu einer Verbesserung der Genauigkeit bei langen Quizaufgaben um 411 TP3T führt.
Diese Antwort stammt aus dem ArtikeldsRAG: eine Abfragemaschine für unstrukturierte Daten und komplexe AbfragenDie































