Das System kombiniert auf innovative Weise den Abgleich von Schlüsselwörtern mit semantischem Verständnis und führt ein visuelles Sprachmodell (z. B. GPT-4o) ein, das auf dem traditionellen Vektor-Retrieval basiert. Bei Suchanfragen, die Bilder enthalten, ruft das System automatisch das visuelle Modell auf, um Bildmerkmale zu extrahieren, und führt eine gemeinsame Berechnung mit Texteinbettungsvektoren durch. Bei der Abfrage "Analysiere Trenddiagramm der Q3-Verkaufsdaten im Jahr 2023" zum Beispiel findet das System zunächst die relevanten Tabellendaten und kombiniert dann die visuellen Merkmale des Diagramms, um eine umfassende Analyse zu erstellen. Die Testdaten zeigen, dass dieser hybride Abfragemodus die Genauigkeit der Beantwortung modusübergreifender Fragen auf 89% verbessert, was 32 Prozentpunkte höher ist als die herkömmliche Methode. Die technische Architektur verwendet eine hierarchische Indexierungsstrategie, bei der verschiedene modale Daten wie Text und Bilder in eine optimierte Indexierungsstruktur eingebaut werden.
Diese Antwort stammt aus dem ArtikelRAG-Anything: ein All-in-One-RAG-System, das grafische Formulare verarbeiten kannDie




























