Derzeitige Position:Abb. Anfang » AI-Werkzeugbibliothek

Intelligent Agentic Retrieval Enhanced Generation: ein Überblick über die Agentic RAG-Technologie

2025-01-31

AI-Werkzeugbibliothek/KI-Wissen

2.3 K 1

https://arxiv.org/pdf/2501.09136

eine Kopie machen von

Link direktMobile Ansicht

Abstracts

Große Sprachmodelle (Large Language Models, LLMs) wie GPT-4 von OpenAI, PaLM von Google und LLaMA von Meta haben die Künstliche Intelligenz (KI) grundlegend verändert, indem sie eine menschenähnliche Texterzeugung und ein natürliches Sprachverständnis ermöglichen. Ihre Abhängigkeit von statischen Trainingsdaten schränkt jedoch ihre Fähigkeit ein, auf dynamische Echtzeit-Anfragen zu reagieren, was zu veralteten oder ungenauen Ergebnissen führt. Retrieval Augmented Generation (RAG) hat sich als eine Lösung zur Erweiterung von LLMs durch die Integration von Echtzeit-Datenabfragen herauskristallisiert, um kontextuell relevante und zeitnahe Antworten zu liefern. Trotz der vielversprechenden Möglichkeiten von RAG sind herkömmliche RAG-Systeme in Bezug auf statische Arbeitsabläufe und mangelnde Flexibilität begrenzt, die für mehrstufige Schlussfolgerungen und komplexes Aufgabenmanagement erforderlich sind.

Agentic Retrieval Augmented Generation (Agentic RAG) überwindet diese Einschränkungen, indem es autonome KI-Agenten in den RAG-Prozess einbindet. Diese Agenten nutzen agenturische Entwurfsmuster - Reflexion, Planung, Werkzeugnutzung und Multi-Agenten-Kollaboration - zur dynamischen Verwaltung von Retrieval-Strategien, zur iterativen Verfeinerung des kontextuellen Verständnisses und zur Anpassung von Arbeitsabläufen an die Anforderungen komplexer Aufgaben. Durch diese Integration bietet das Agentic RAG-System eine unübertroffene Flexibilität, Skalierbarkeit und Kontextwahrnehmung für eine Vielzahl von Anwendungen.

Diese Übersichtsarbeit befasst sich umfassend mit Agentic RAG, beginnend mit den zugrunde liegenden Prinzipien und der Entwicklung des RAG-Paradigmas. Er beschreibt die Kategorisierung von agentenbasierten RAG-Architekturen, hebt ihre wichtigsten Anwendungen in Branchen wie dem Gesundheits-, Finanz- und Bildungswesen hervor und erforscht praktische Implementierungsstrategien. Darüber hinaus werden die Herausforderungen bei der Skalierung dieser Systeme, der Sicherstellung einer ethischen Entscheidungsfindung und der Optimierung der Leistung realer Anwendungen erörtert, während gleichzeitig detaillierte Einblicke in Frameworks und Tools für die Implementierung von Agentic RAG gegeben werden.

Schlüsselwörter. Große Sprachmodelle (LLMs) - Künstliche Intelligenz (KI) - Verstehen natürlicher Sprache - Retrieval Augmented Generation (RAG) - Agenten-RAG - Autonome KI-Agenten - Reflexion - Planung - Werkzeugnutzung - Multi-Agenten-Kollaboration - Agenten-Muster - Kontextuelles Verständnis - Dynamische Anpassung - Skalierbarkeit - Echtzeit-Datenabfrage - Agenten-RAG-Klassifikation - Anwendungen im Gesundheitswesen - Anwendungen im Finanzwesen - Anwendungen im Bildungswesen - Ethische KI-Entscheidungsfindung - Leistungsoptimierung - Mehrstufiges Reasoning

1 Einleitung

Große Sprachmodelle (Large Language Models, LLMs) [1, 2] [3] wie GPT-4 von OpenAI, PaLM von Google und LLaMA von Meta haben die Künstliche Intelligenz (KI) durch die Generierung von menschenähnlichem Text und die Durchführung komplexer Aufgaben zur Verarbeitung natürlicher Sprache grundlegend verändert. Diese Modelle haben die Innovation im Bereich des Dialogs vorangetrieben [4], einschließlich Gesprächsagenten, automatischer Inhaltserstellung und Echtzeitübersetzung. Jüngste Fortschritte haben ihre Fähigkeiten auf multimodale Aufgaben wie Text-zu-Bild- und Text-zu-Video-Generierung [5] ausgeweitet und ermöglichen die Erstellung und Bearbeitung von Videos und Bildern auf der Grundlage detaillierter Eingabeaufforderungen [6], was das Spektrum der potenziellen Anwendungen für generative KI erweitert.

Trotz dieser Fortschritte stoßen LLMs immer noch auf erhebliche Einschränkungen, da sie auf statische Daten vor dem Training angewiesen sind. Diese Abhängigkeit führt in der Regel zu veralteten Informationen, Phantomantworten [7] und der Unfähigkeit, sich an dynamische Szenarien der realen Welt anzupassen. Diese Herausforderungen unterstreichen den Bedarf an Systemen, die Echtzeitdaten integrieren und Antworten dynamisch verfeinern können, um kontextuelle Relevanz und Genauigkeit zu erhalten.

Retrieval Augmented Generation (RAG) [8, 9] hat sich als vielversprechende Lösung für diese Herausforderungen herauskristallisiert: RAG verbessert die Relevanz und Aktualität von Antworten durch die Kombination der generativen Fähigkeiten von LLMs mit externen Retrieval-Mechanismen [10]. Diese Systeme rufen Echtzeit-Informationen aus Quellen wie Wissensdatenbanken [11], APIs oder dem Internet ab und überbrücken so effektiv die Lücke zwischen statischen Trainingsdaten und dynamischen Anwendungsanforderungen. Herkömmliche RAG-Workflows sind jedoch immer noch durch ihr lineares und statisches Design eingeschränkt, was ihre Fähigkeit einschränkt, komplexe mehrstufige Schlussfolgerungen zu ziehen, tiefes kontextuelles Verständnis zu integrieren und Antworten iterativ zu verfeinern.

Die Entwicklung von Agenten [12] hat die Fähigkeiten von KI-Systemen weiter verbessert. Moderne Agenten, einschließlich LLM-basierter und mobiler Agenten [13], sind intelligente Einheiten, die in der Lage sind, wahrzunehmen, zu argumentieren und Aufgaben autonom auszuführen. Diese Agenten nutzen agentenbasierte Arbeitsablaufmuster wie Reflexion [14], Planung [15], Verwendung von Werkzeugen und Zusammenarbeit zwischen mehreren Agenten [16], wodurch sie in der Lage sind, dynamische Arbeitsabläufe zu verwalten und komplexe Probleme zu lösen.

Die Konvergenz von RAG und agentenbasierter Intelligenz hat zu Agentic Retrieval Augmented Generation (Agentic RAG) [17] geführt, einem Paradigma, das Agenten in den RAG-Prozess integriert. Agentic RAG implementiert dynamische Retrieval-Strategien, kontextuelles Verständnis und iterative Verfeinerung [18] und ermöglicht so eine adaptive und effiziente Informationsverarbeitung. Im Gegensatz zum traditionellen RAG setzt Agentic RAG autonome Agenten ein, um die Suche zu orchestrieren, relevante Informationen zu filtern und Antworten zu verfeinern, und zeichnet sich in Szenarien aus, die Genauigkeit und Anpassungsfähigkeit erfordern.

Diese Übersicht untersucht die zugrundeliegenden Prinzipien, die Klassifizierung und die Anwendungen von Agentic RAG. Sie bietet einen umfassenden Überblick über RAG-Paradigmen wie Simple RAG, Modular RAG und Graph RAG [19] und deren Weiterentwicklung zu Agentic RAG Systemen. Zu den wichtigsten Beiträgen gehören eine detaillierte Klassifizierung von Agentic RAG Frameworks, Anwendungen in Bereichen wie Gesundheitswesen [20, 21], Finanzen und Bildung [22] sowie Einblicke in Implementierungsstrategien, Benchmarking und ethische Überlegungen.

Der Beitrag ist wie folgt gegliedert: In Abschnitt 2 werden die RAG und ihre Entwicklung vorgestellt, wobei die Grenzen der traditionellen Ansätze hervorgehoben werden. Abschnitt 3 beschreibt die Prinzipien der agentenbasierten Intelligenz und agentenbasierte Modelle. Abschnitt 4 bietet eine Klassifizierung von agentenbasierten RAG-Systemen, einschließlich Einzelagenten-, Multiagenten- und graphbasierten Systemen. In Abschnitt 5 werden Anwendungen von Agentic RAG untersucht, während in Abschnitt 6 Implementierungswerkzeuge und Frameworks erörtert werden. Abschnitt 7 konzentriert sich auf Benchmarks und Datensätze, und Abschnitt 8 schließt mit einem Ausblick auf zukünftige Entwicklungen von Agentic RAG Systemen.

2 Grundlage für die Generierung von Retrieval-Erweiterungen

2.1 Überblick über die Retrieval Augmented Generation (RAG)

Retrieval-augmented generation (RAG) stellt einen großen Fortschritt auf dem Gebiet der künstlichen Intelligenz dar, indem es die generative Kraft großer Sprachmodelle (LLMs) mit Echtzeit-Datenabfrage kombiniert. Während LLMs außergewöhnliche Fähigkeiten in der Verarbeitung natürlicher Sprache bewiesen haben, führt ihre Abhängigkeit von statischen Vortrainingsdaten oft zu veralteten oder unvollständigen Antworten. RAG behebt diese Einschränkung, indem es relevante Informationen aus externen Quellen dynamisch abruft und in den generativen Prozess einbezieht, was die Generierung von kontextuell genauen und reaktionsfähigen Ergebnissen in einer zeitnahen Weise ermöglicht.

2.2 Kernbestandteile der RAG

Die Architektur des RAG-Systems setzt sich aus drei Hauptkomponenten zusammen (siehe Abbildung 1):

abrufen (Daten)Abfrage von externen Datenquellen wie Wissensdatenbanken, APIs oder Vektordatenbanken. Fortgeschrittene Retriever nutzen die dichte Vektorsuche und auf Transformer basierende Modelle, um die Retrievalgenauigkeit und semantische Relevanz zu verbessern.
verstärken.Verarbeitung der abgerufenen Daten, um die für den Abfragekontext wichtigsten Informationen zu extrahieren und zusammenzufassen.
Erzeugung vonKombinieren Sie die abgerufenen Informationen mit dem vorher trainierten Wissen über das LLM, um kohärente, kontextgerechte Antworten zu generieren.

Figure 1: Core Components of RAG

2.3 Entwicklung des RAG-Paradigmas

Das Gebiet der Retrieval Augmented Generation (RAG) hat erhebliche Fortschritte gemacht, um der zunehmenden Komplexität realer Anwendungen gerecht zu werden, bei denen kontextbezogene Genauigkeit, Skalierbarkeit und mehrstufige Schlussfolgerungen entscheidend sind. Ausgehend von einer einfachen stichwortbasierten Suche hat sie sich zu komplexen, modularen und adaptiven Systemen entwickelt, die in der Lage sind, verschiedene Datenquellen und autonome Entscheidungsprozesse zu integrieren. Diese Entwicklung verdeutlicht den wachsenden Bedarf an RAG-Systemen, die komplexe Abfragen effizient und effektiv bearbeiten können.

In diesem Abschnitt wird die Entwicklung des RAG-Paradigmas untersucht, wobei die wichtigsten Entwicklungsstufen - Simple RAG, Advanced RAG, Modular RAG, Graph RAG und Agent-Based RAG - sowie deren definierende Merkmale, Stärken und Grenzen beschrieben werden. Durch das Verständnis der Entwicklung dieser Paradigmen kann der Leser die Fortschritte bei der Suche und den generativen Fähigkeiten sowie deren Anwendungen in verschiedenen Bereichen nachvollziehen.

2.3.1 Einfache RAG

Die einfache RAG [23] stellt die Basisimplementierung der Retrieval-gestützten Generierung dar. Abbildung 2 zeigt einfache RAGs für einfache Retrieval-Lese-Workflows mit Schwerpunkt auf schlagwortbasiertem Retrieval und statischen Datenbeständen. Diese Systeme stützen sich auf einfache schlagwortbasierte Retrievaltechniken wie TF-IDF und BM25, um Dokumente aus statischen Datenbeständen zu finden. Die abgerufenen Dokumente werden dann verwendet, um die Erstellung von Sprachmodellen zu verbessern.

Figure 2: An Overview of Naive RAG.

Simple RAG zeichnet sich durch seine Einfachheit und leichte Implementierung aus und eignet sich für Aufgaben, die faktenbasierte Abfragen mit minimaler kontextueller Komplexität beinhalten. Es hat jedoch mehrere Einschränkungen:

Mangelndes Bewusstsein für ZusammenhängeAbgerufene Dokumente erfassen oft nicht die semantischen Nuancen einer Anfrage, weil sie sich auf lexikalische Übereinstimmung und nicht auf semantisches Verständnis verlassen.
Fragmentierung der AusgabeDas Fehlen einer fortgeschrittenen Vorverarbeitung oder einer kontextuellen Integration führt oft zu inkohärenten oder zu allgemeinen Antworten.
Problem der SkalierbarkeitSchlüsselwortbasierte Suchtechniken sind bei großen Datenbeständen meist nicht sehr leistungsfähig und können die wichtigsten Informationen nicht identifizieren.

Trotz dieser Einschränkungen bietet das einfache RAG-System einen entscheidenden Konzeptnachweis für die Kombination von Abruf und Generierung und legt damit den Grundstein für komplexere Paradigmen.

2.3.2 Erweiterte RAG

Fortgeschrittene RAG-Systeme [23] bauen auf den Beschränkungen der einfachen RAG auf, indem sie semantisches Verständnis und verbesserte Suchtechniken integrieren. Abbildung 3 verdeutlicht die semantische Erweiterung und den iterativen, kontextbewussten Prozess der erweiterten RAG beim Retrieval. Diese Systeme nutzen dichte Retrievalmodelle wie Dense Paragraph Retrieval (DPR) und neuronale Ranking-Algorithmen, um die Retrievalgenauigkeit zu verbessern.

Figure 3: Overview of Advanced RAG

Zu den wichtigsten Merkmalen des Advanced RAG gehören:

Dichte VektorsucheAbfragen und Dokumente werden in einem hochrangigen Vektorraum dargestellt, was zu einer besseren semantischen Übereinstimmung zwischen Benutzerabfragen und abgerufenen Dokumenten führt.
Kontext neu ordnenNeuronales Modell: Das neuronale Modell ordnet die abgerufenen Dokumente neu, um die kontextuell relevantesten Informationen zu priorisieren.
Iterative SucheAdvanced RAG führt einen Multi-Hop-Retrieval-Mechanismus ein, der es ermöglicht, komplexe Abfragen über mehrere Dokumente hinweg zu beantworten.

Dank dieser Fortschritte eignen sich fortgeschrittene RAG für Anwendungen, die eine hohe Präzision und ein differenziertes Verständnis erfordern, wie z. B. die Synthese von Forschungsergebnissen und personalisierte Empfehlungen. Allerdings gibt es nach wie vor Probleme mit dem Rechenaufwand und der begrenzten Skalierbarkeit, insbesondere bei großen Datensätzen oder mehrstufigen Abfragen.

2.3.3 Modulare RAG

Modulare RAGs [23] stellen die jüngste Entwicklung des RAG-Paradigmas dar, wobei der Schwerpunkt auf Flexibilität und Anpassbarkeit liegt. Diese Systeme zerlegen die Retrieval- und Generierungsprozesse in separate, wiederverwendbare Komponenten, um eine domänenspezifische Optimierung und Anpassbarkeit der Aufgaben zu ermöglichen. Abbildung 4 veranschaulicht die modulare Architektur und zeigt hybride Abfragestrategien, zusammensetzbare Prozesse und die Integration externer Werkzeuge.

Zu den wichtigsten Innovationen des modularen RAG gehören:

hybride SuchstrategieKombination von Sparse-Retrieval-Methoden (z.B. Sparse Encoder - BM25) und Dense-Retrieval-Techniken (z.B. DPR - Dense Paragraph Retrieval) zur Maximierung der Genauigkeit für verschiedene Abfragetypen.
WerkzeugintegrationIntegration externer APIs, Datenbanken oder Berechnungswerkzeuge zur Bewältigung spezifischer Aufgaben, wie Echtzeit-Datenanalyse oder bereichsspezifische Berechnungen.
Zusammensetzbare ProzesseDer modulare RAG ermöglicht den Austausch, die Erweiterung oder die Neukonfiguration von Retrievern, Generatoren und anderen Komponenten, die unabhängig voneinander ein hohes Maß an Anpassung an spezifische Anwendungsfälle ermöglichen.

Ein modulares RAG-System, das für die Finanzanalyse entwickelt wurde, könnte zum Beispiel Echtzeit-Aktienkurse über eine API abrufen, historische Trends mit Hilfe einer intensiven Suche analysieren und mit Hilfe eines angepassten Sprachmodells verwertbare Erkenntnisse über Investitionen generieren. Durch diese Modularität und Anpassbarkeit eignet sich modulares RAG gut für komplexe, bereichsübergreifende Aufgaben und bietet sowohl Skalierbarkeit als auch Genauigkeit.

Figure 4: Overview of Modular RAG

2.3.4 Abbildung RAG

Graph RAG [19] erweitert die traditionellen Systeme zur Generierung von Retrieval-Erweiterungen durch die Integration graphbasierter Datenstrukturen, wie in Abbildung 5 dargestellt. Diese Systeme nutzen Beziehungen und Hierarchien in Graphdaten, um Multi-Hop-Reasoning und kontextuelle Erweiterungen zu verbessern. Durch die Integration von graphbasiertem Retrieval sind Graph-RAGs in der Lage, reichhaltigere und genauere Ergebnisse zu generieren, insbesondere für Aufgaben, die ein relationales Verständnis erfordern.

Die Abbildung RAG zeichnet sich durch ihre Fähigkeit aus,:

KnotenkonnektivitätErfassen von und Schlussfolgerungen über Beziehungen zwischen Entitäten.
Hierarchisches WissensmanagementHandhabung strukturierter und unstrukturierter Daten durch Graphenhierarchien.
kontextabhängig: Hinzufügen eines relationalen Verständnisses durch die Verwendung von Graphenpfaden.

Das RAG-Diagramm weist jedoch einige Einschränkungen auf:

Begrenzte SkalierbarkeitAbhängigkeit von der Graphenstruktur kann die Skalierbarkeit einschränken, insbesondere bei einer großen Anzahl von Datenquellen.
Abhängigkeit von den DatenQualitativ hochwertige Graphdaten sind für eine aussagekräftige Ausgabe unabdingbar, was die Anwendung auf unstrukturierte oder schlecht annotierte Datensätze beschränkt.
Komplexität der IntegrationDie Integration von Graphdaten in unstrukturierte Retrievalsysteme erhöht die Komplexität von Design und Implementierung.

Graph RAG eignet sich gut für Anwendungen in Bereichen wie der medizinischen Diagnostik und der juristischen Forschung, in denen die Schlussfolgerung über strukturierte Beziehungen entscheidend ist.

Figure 5: Overview of Graph RAG

2.3.5 Stellvertretende RAG

Agentenbasierte RAG stellen einen Paradigmenwechsel dar, indem sie autonome Agenten einführen, die in der Lage sind, dynamische Entscheidungen zu treffen und Arbeitsabläufe zu optimieren. Im Gegensatz zu statischen Systemen verwenden agentenbasierte RAGs iterative Verfeinerungs- und adaptive Abrufstrategien, um komplexe Echtzeit- und Multidomänen-Abfragen zu bewältigen. Dieses Paradigma nutzt die Modularität des Abruf- und Generierungsprozesses und führt gleichzeitig agentenbasierte Autonomie ein.

Zu den wichtigsten Merkmalen der agentenbasierten RAG gehören:

SelbstbestimmungsrechtAgenten bewerten und verwalten selbständig Abfragestrategien auf der Grundlage der Komplexität der Anfrage.
Iterative VerfeinerungIntegration von Feedback-Schleifen zur Verbesserung der Abrufgenauigkeit und der Relevanz der Antworten.
Optimierung des ArbeitsablaufsDynamische Planung von Aufgaben, um Echtzeitanwendungen effizienter zu machen.

Trotz dieser Fortschritte stehen agentenbasierte RAGs vor einer Reihe von Herausforderungen:

Komplexität der KoordinierungDie Verwaltung von Interaktionen zwischen Agenten erfordert komplexe Koordinationsmechanismen.
rechnerischer AufwandDer Einsatz mehrerer Agenten erhöht den Ressourcenbedarf für komplexe Arbeitsabläufe.
SkalierbarkeitsbeschränkungenSkalierbarkeit: Obwohl das System skalierbar ist, kann es aufgrund seiner Dynamik bei hohen Abfragevolumina zu Problemen kommen.

Agentenbasierte RAGs haben sich in Bereichen wie Kundensupport, Finanzanalyse und adaptive Lernplattformen bewährt, wo dynamische Anpassungsfähigkeit und kontextbezogene Genauigkeit entscheidend sind.

2.4 Herausforderungen und Grenzen der traditionellen RAG-Systeme

Herkömmliche Retrieval Augmented Generation (RAG)-Systeme haben die Fähigkeiten großer Sprachmodelle (LLMs) durch die Integration von Echtzeit-Datenabfragen erheblich erweitert. Allerdings stehen diese Systeme immer noch vor einer Reihe von Herausforderungen, die ihre Effektivität in komplexen realen Anwendungen behindern. Die bemerkenswertesten Einschränkungen betreffen die Kontextintegration, mehrstufige Schlussfolgerungen sowie Skalierbarkeits- und Latenzprobleme.

2.4.1 Kontextbezogene Integration

Selbst wenn RAG-Systeme erfolgreich relevante Informationen abrufen, haben sie oft Schwierigkeiten, die Informationen nahtlos in die generierte Antwort zu integrieren. Die statische Natur des Abrufprozesses und die begrenzte Kontextwahrnehmung führen zu fragmentierten, inkonsistenten oder zu generischen Ergebnissen.

BEISPIEL: Eine Abfrage wie "Jüngste Fortschritte in der Alzheimer-Forschung und ihre Auswirkungen auf eine frühzeitige Behandlung" kann relevante wissenschaftliche Arbeiten und medizinische Leitlinien liefern. Herkömmliche RAG-Systeme sind jedoch oft nicht in der Lage, diese Erkenntnisse in kohärente Erklärungen zusammenzufassen, die neue Behandlungen mit spezifischen Patientenszenarien verbinden. Ähnlich verhält es sich mit einer Anfrage wie "Welches sind die besten nachhaltigen Praktiken für die kleinbäuerliche Landwirtschaft in Trockengebieten?": Ein konventionelles System findet möglicherweise Artikel über allgemeine landwirtschaftliche Methoden, lässt aber wichtige nachhaltige Praktiken für trockene Gebiete aus.

Table 1: Comparative Analysis of RAG Paradigms

Paradigm	Key Features	Strengths
Naive RAG	– Keyword-based retrieval (e.g., TF-IDF, BM25)	– Simple and easy to implement – Suitable for fact-based queries
Advanced RAG	– Dense retrieval models (e.g., DPR) – Neural ranking and re-ranking – Multi-hop retrieval	– High precision retrieval – Improved contextual relevance
Modular RAG	– Hybrid retrieval (sparse and dense) – Tool and API integration – Composable, domain-specific pipelines	– High flexibility and customization – Suitable for diverse applications – Scalable
Graph RAG	– Integration of graph-based structures – Multi-hop reasoning – Contextual enrichment via nodes	– Relational reasoning capabilities – Mitigates hallucinations – Ideal for structured data tasks
Agentic RAG	– Autonomous agents – Dynamic decision-making – Iterative refinement and workflow optimization	– Adaptable to real-time changes – Scalable for multi-domain tasks – High accuracy

2.4.2 Mehrstufige Argumentation

Viele reale Anfragen erfordern eine iterative oder mehrstufige Argumentation, d. h. das Abrufen und Zusammenführen von Informationen aus mehreren Schritten. Herkömmliche RAG-Systeme sind oft schlecht darauf vorbereitet, die Abfrage auf der Grundlage von Zwischenergebnissen oder Nutzerfeedback zu verfeinern, was zu unvollständigen oder unzusammenhängenden Antworten führt.

Beispiel: eine komplexe Frage wie "Welche Lehren aus der europäischen Politik im Bereich der erneuerbaren Energien können auf die Entwicklungsländer übertragen werden, und wie sehen die potenziellen wirtschaftlichen Auswirkungen aus?" Mehrere Informationen müssen miteinander in Einklang gebracht werden, einschließlich politischer Daten, Kontextualisierung für Entwicklungsregionen und wirtschaftlicher Analysen. Herkömmliche RAG-Systeme sind oft nicht in der Lage, diese unterschiedlichen Elemente zu einer kohärenten Antwort zu verbinden.

2.4.3 Skalierbarkeit und Latenzprobleme

Da die Zahl der externen Datenquellen zunimmt, wird die Abfrage und Einordnung großer Datenmengen immer rechenintensiver. Dies führt zu erheblichen Latenzzeiten, die die Fähigkeit des Systems, bei Echtzeitanwendungen zeitnahe Antworten zu geben, beeinträchtigen.

Beispiel: In zeitkritischen Umgebungen wie der Finanzanalyse oder dem Echtzeit-Kundensupport können Verzögerungen bei der Abfrage mehrerer Datenbanken oder der Arbeit mit großen Dokumentensätzen den Gesamtnutzen des Systems schmälern. Beispielsweise können Verzögerungen beim Abrufen von Markttrends im Hochfrequenzhandel zu verpassten Chancen führen.

2.5 Agentenbasierte RAG: ein Paradigmenwechsel

Herkömmliche RAG-Systeme mit ihren statischen Arbeitsabläufen und ihrer begrenzten Anpassungsfähigkeit sind oft nicht in der Lage, dynamische, mehrstufige Schlussfolgerungen zu ziehen und komplexe Aufgaben in der realen Welt zu bewältigen. Durch die Integration autonomer Agenten, die in der Lage sind, dynamische Entscheidungen zu treffen, iterative Schlussfolgerungen zu ziehen und adaptive Suchstrategien anzuwenden, überwinden agentenbasierte RAGs ihre inhärenten Beschränkungen und behalten gleichzeitig die Modularität früherer Paradigmen bei. Diese Entwicklung ermöglicht die Lösung komplexerer, bereichsübergreifender Aufgaben mit verbesserter Präzision und kontextbezogenem Verständnis und positioniert agentenbasierte RAGs als Grundlage für die nächste Generation von KI-Anwendungen. Insbesondere reduzieren agentenbasierte RAG-Systeme die Latenzzeit durch optimierte Arbeitsabläufe und verfeinern inkrementell die Ergebnisse, wodurch Herausforderungen angegangen werden, die lange Zeit die Skalierbarkeit und Effektivität traditioneller RAGs behindert haben.

3 Grundprinzipien und Kontext der Agentenintelligenz

Agentenintelligenz bildet die Grundlage agentenbasierter Retrieval Augmented Generation (RAG)-Systeme und ermöglicht es ihnen, über die statische und reaktive Natur herkömmlicher RAG hinauszugehen. Durch die Integration von autonomen Agenten, die in der Lage sind, dynamische Entscheidungen zu treffen, iterative Schlussfolgerungen zu ziehen und kollaborative Arbeitsabläufe durchzuführen, weisen agentenbasierte RAG-Systeme eine größere Anpassungsfähigkeit und Genauigkeit auf. In diesem Abschnitt werden die Grundprinzipien der Agentenintelligenz untersucht.

Bestandteile eines KI-Agenten. Ein KI-Agent besteht im Wesentlichen aus (siehe Abbildung 6):

LLM (mit definierten Rollen und Aufgaben)Die primäre Argumentationsmaschine und Dialogschnittstelle des Agenten. Er interpretiert Benutzeranfragen, erzeugt Antworten und sorgt für Kohärenz.
Gedächtnis (kurz- und langfristig)Erfassen von Kontext und relevanten Daten während einer Interaktion. Das Kurzzeitgedächtnis [25] erfasst den unmittelbaren Dialogzustand, während das Langzeitgedächtnis [25] das gesammelte Wissen und die Erfahrung des Agenten speichert.
Planung (Reflexion und Selbstkritik)Die Steuerung des iterativen Denkprozesses des Agenten durch Reflexion, Query Routing oder Selbstkritik [26] gewährleistet, dass komplexe Aufgaben effektiv zerlegt werden [15].
Werkzeuge (Vektorsuche, Websuche, APIs, usw.)Erweiterung der Fähigkeit von Agenten, über die Texterstellung hinaus auf externe Ressourcen, Echtzeitdaten oder spezialisierte Datenverarbeitung zuzugreifen.

Figure 6: An Overview of AI Agents

3.1 Proxy-Modell

Agentenmuster [27, 28] bieten strukturierte Möglichkeiten, das Verhalten von Agenten in agentenbasierten Retrieval Augmented Generation (RAG)-Systemen zu steuern. Diese Muster ermöglichen es den Agenten, sich dynamisch anzupassen, zu planen und zusammenzuarbeiten, um sicherzustellen, dass das System komplexe Aufgaben der realen Welt präzise und skalierbar bewältigen kann. Vier Schlüsselmuster bilden die Grundlage des Agenten-Workflows:

3.1.1 Reflexion

Reflexion ist ein grundlegendes Entwurfsmuster des Agenten-Workflows, das es dem Agenten ermöglicht, seine Ergebnisse iterativ zu bewerten und zu verbessern. Durch die Integration eines Selbstfeedback-Mechanismus kann der Agent Fehler, Inkonsistenzen und verbesserungswürdige Bereiche erkennen und beheben und so die Leistung von Aufgaben wie Codegenerierung, Texterstellung und Fragen und Antworten verbessern (siehe Abbildung 7). In der Praxis bedeutet Reflexion, dass der Agent aufgefordert wird, seine Ergebnisse in Bezug auf Korrektheit, Stil und Effizienz zu kritisieren, und dass dieses Feedback in die nachfolgenden Iterationen einfließt. Externe Tools, wie Unit-Tests oder Websuchen, können diesen Prozess weiter verbessern, indem sie die Ergebnisse validieren und Lücken aufzeigen.

Figure 7: An Overview of Agentic Self- Reflection

In Multi-Agenten-Systemen kann die Reflexion verschiedene Rollen einnehmen, z. B. wenn ein Agent den Output generiert, während ein anderer Agent ihn kritisiert, was eine kollaborative Verbesserung ermöglicht. In der juristischen Forschung können Agenten beispielsweise Antworten iterativ verfeinern, um Genauigkeit und Vollständigkeit zu gewährleisten, indem sie abgerufenes Fallrecht neu bewerten. Reflexion hat in Studien wie Self-Refine [29], Reflexion [30] und CRITIC [26] erhebliche Leistungssteigerungen gezeigt.

3.1.2 Planung

Planung [15] ist ein zentrales Entwurfsmuster für Agenten-Workflows, das es den Agenten ermöglicht, komplexe Aufgaben autonom in kleinere, besser zu bewältigende Teilaufgaben zu zerlegen. Diese Fähigkeit ist entscheidend für Multi-Hop-Reasoning und iterative Problemlösungen in dynamischen und unsicheren Szenarien (wie in Abbildung 8 dargestellt).

Figure 8: An Overview of Agentic Planning

Durch den Einsatz von Planung können Agenten dynamisch die Abfolge von Schritten festlegen, die zur Erreichung größerer Ziele erforderlich sind. Diese Anpassungsfähigkeit ermöglicht es den Agenten, Aufgaben zu bewältigen, die nicht im Voraus festgelegt werden können, und gewährleistet Flexibilität bei der Entscheidungsfindung. Obwohl die Planung leistungsfähig ist, kann sie zu weniger vorhersehbaren Ergebnissen führen als deterministische Arbeitsabläufe wie die Reflexion. Die Planung eignet sich besonders für Aufgaben, die eine dynamische Anpassung erfordern und bei denen vordefinierte Arbeitsabläufe nicht ausreichen. Mit zunehmender Reife der Technologie wird ihr Potenzial zur Entwicklung innovativer Anwendungen in verschiedenen Bereichen weiter zunehmen.

3.1.3 Einsatz von Werkzeugen

Die Nutzung von Werkzeugen ermöglicht es Agenten, ihre Fähigkeiten zu erweitern, indem sie mit externen Werkzeugen, APIs oder Rechenressourcen interagieren, wie in Abbildung 9 dargestellt. Dieses Modell ermöglicht es dem Agenten, Informationen zu sammeln, Berechnungen durchzuführen und Daten zu manipulieren, die über sein vortrainiertes Wissen hinausgehen. Durch die dynamische Integration von Tools in den Arbeitsablauf können sich Agenten an komplexe Aufgaben anpassen und genauere und kontextbezogene Ergebnisse liefern.

Figure 9: An Overview of Tool Use

Moderne Agenten-Workflows integrieren die Nutzung von Werkzeugen in eine Vielzahl von Anwendungen, einschließlich Informationsbeschaffung, rechnerische Schlussfolgerungen und Schnittstellen zu externen Systemen. Die Umsetzung dieses Modells hat sich mit der Entwicklung der GPT-4-Funktionsaufrufe und der Systeme, die den Zugriff auf zahlreiche Werkzeuge verwalten können, erheblich weiterentwickelt. Diese Entwicklungen haben komplexe Agenten-Workflows erleichtert, bei denen die Agenten die für eine bestimmte Aufgabe am besten geeigneten Werkzeuge selbständig auswählen und ausführen können.

Obwohl der Einsatz von Werkzeugen die Arbeitsabläufe von Agenten erheblich verbessert hat, gibt es nach wie vor Probleme bei der Optimierung der Auswahl von Werkzeugen, insbesondere wenn eine große Anzahl von Optionen verfügbar ist. Zur Lösung dieses Problems wurden Techniken vorgeschlagen, die sich an der Retrieval-gestützten Generierung (RAG) orientieren, z. B. die heuristische Auswahl.

3.1.4 Multi-Agent

Die Zusammenarbeit mehrerer Agenten [16] ist ein zentrales Entwurfsmuster in Agenten-Workflows, das eine Aufgabenspezialisierung und Parallelverarbeitung ermöglicht. Agenten kommunizieren miteinander und tauschen Zwischenergebnisse aus, um sicherzustellen, dass der gesamte Arbeitsablauf effizient und kohärent bleibt. Durch die Zuweisung von Teilaufgaben an spezialisierte Agenten verbessert dieses Muster die Skalierbarkeit und Anpassungsfähigkeit komplexer Arbeitsabläufe. Multi-Agenten-Systeme ermöglichen es den Entwicklern, komplexe Aufgaben in kleinere, besser handhabbare Teilaufgaben aufzuteilen, die verschiedenen Agenten zugewiesen werden. Dieser Ansatz verbessert nicht nur die Aufgabenleistung, sondern bietet auch einen leistungsfähigen Rahmen für die Verwaltung komplexer Interaktionen. Jeder Agent verfügt über einen eigenen Speicher und einen eigenen Arbeitsablauf, der den Einsatz von Werkzeugen, Reflexion oder Planung umfassen kann, was eine dynamische und gemeinschaftliche Problemlösung ermöglicht (siehe Abbildung 10).

Figure 10: An Overview of MultiAgent

Die Zusammenarbeit von Multi-Agenten bietet zwar ein großes Potenzial, ist aber ein weitaus weniger vorhersehbares Entwurfsparadigma als ausgereiftere Arbeitsabläufe wie Reflexion und Werkzeugnutzung. Dennoch bieten aufkommende Frameworks wie AutoGen, Crew AI und LangGraph neue Möglichkeiten zur Implementierung effektiver Multi-Agenten-Lösungen.

Diese Muster sind der Grundstein für den Erfolg von agentenbasierten RAG-Systemen, die es ihnen ermöglichen, Abruf- und Generierungsworkflows dynamisch anzupassen, um den Anforderungen unterschiedlicher, dynamischer Umgebungen gerecht zu werden. Durch die Nutzung dieser Muster können Agenten iterative, kontextabhängige Aufgaben bewältigen, die über die Möglichkeiten traditioneller RAG-Systeme hinausgehen.

4 Klassifizierung von agentenbasierten RAG-Systemen

Agentenbasierte Retrieval Augmented Generation (RAG)-Systeme lassen sich aufgrund ihrer Komplexität und ihrer Gestaltungsprinzipien in verschiedene Architekturen einteilen. Dazu gehören Ein-Agenten-Architekturen, Multi-Agenten-Systeme und hierarchische Agenten-Architekturen. Jeder Rahmen zielt darauf ab, spezifische Herausforderungen zu bewältigen und die Leistung in verschiedenen Anwendungen zu optimieren. In diesem Abschnitt wird eine detaillierte Kategorisierung dieser Architekturen vorgenommen, wobei ihre Merkmale, Vorteile und Grenzen hervorgehoben werden.

4.1 Alleinvertretungsberechtigter Proxy RAG: Router

Auf Einzelagenten basierende RAGs [31] fungieren als zentralisiertes Entscheidungssystem, bei dem ein Agent die Abfrage, das Routing und die Informationsintegration verwaltet (wie in Abbildung 11 dargestellt). Diese Architektur vereinfacht das System, indem sie diese Aufgaben in einem einzigen, einheitlichen Agenten zusammenfasst, wodurch sie sich besonders für Umgebungen mit einer begrenzten Anzahl von Tools oder Datenquellen eignet.

Arbeitsablauf

Einreichung und Auswertung von AnfragenDer Prozess beginnt, wenn der Nutzer eine Anfrage stellt. Ein koordinierender Agent (oder Master-Retrieval-Agent) nimmt die Anfrage entgegen und analysiert sie, um die am besten geeignete Informationsquelle zu ermitteln.
Auswahl der WissensquellenJe nach Art der Anfrage wählt der koordinierende Agent aus einer Vielzahl von Suchoptionen aus:
- Strukturierte DatenbankFür Abfragen, die den Zugriff auf tabellarische Daten erfordern, kann das System eine Text-to-SQL-Engine verwenden, die mit Datenbanken wie PostgreSQL oder MySQL interagiert.
- semantische SucheBei unstrukturierten Informationen verwendet es vektorbasiertes Retrieval, um relevante Dokumente (z. B. PDFs, Bücher, Organisationsunterlagen) abzurufen.
- Suche im InternetFür Echtzeit- oder umfassende kontextbezogene Informationen nutzt das System Web-Suchwerkzeuge, um auf die neuesten Online-Daten zuzugreifen.
- EmpfehlungssystemBei personalisierten oder kontextbezogenen Abfragen verwendet das System eine Empfehlungsmaschine, um maßgeschneiderte Vorschläge zu unterbreiten.
Datenintegration und LLM-SyntheseSobald relevante Daten aus einer ausgewählten Quelle abgerufen wurden, werden sie an das Large Language Model (LLM) weitergeleitet, das die gesammelten Informationen zusammenführt und Erkenntnisse aus mehreren Quellen in eine kohärente und kontextbezogene Antwort integriert.
Erzeugung von OutputSchließlich generiert das System eine umfassende, nutzerorientierte Antwort auf die ursprüngliche Anfrage. Die Antwort wird in einem umsetzbaren, prägnanten Format präsentiert und enthält optional Referenzen oder Zitate zu den verwendeten Quellen.

Hauptmerkmale und Vorteile

Zentralisierte EinfachheitEin einziger Agent erledigt alle Abruf- und Weiterleitungsaufgaben, wodurch die Architektur einfach zu entwerfen, zu implementieren und zu warten ist.
Effizienz und RessourcenoptimierungMit weniger Agenten und einer einfacheren Koordinierung benötigt das System weniger Rechenressourcen und kann Abfragen schneller bearbeiten.
dynamisches RoutingDer Agent wertet jede Anfrage in Echtzeit aus und wählt die am besten geeignete Wissensquelle aus (z. B. strukturierte Datenbanken, semantische Suche, Websuche).
Werkzeugübergreifende VielseitigkeitUnterstützung für mehrere Datenquellen und externe APIs, so dass sowohl strukturierte als auch unstrukturierte Arbeitsabläufe unterstützt werden.
Geeignet für einfache SystemeFür Anwendungen mit klar definierten Aufgaben oder begrenzten Integrationsanforderungen (z. B. Dateiabruf, SQL-basierte Workflows).

Figure 11: An Overview of Single Agentic RAG

Anwendungsfälle: Kundensupport

auf etw. aufmerksam machen: Können Sie mir den Lieferstatus meiner Bestellung mitteilen?

Systemprozesse (Ein-Bearbeiter-Workflow)：

Einreichung und Auswertung von Anfragen：

Der Nutzer stellt eine Anfrage, die vom Koordinationsagenten entgegengenommen wird.

Koordinierung mit Agenten, um Anfragen zu analysieren und die am besten geeigneten Informationsquellen zu ermitteln.

Auswahl der Wissensquellen：

Abruf von Tracking-Details aus der Auftragsverwaltungsdatenbank.

Erhalten Sie Echtzeit-Updates von der API des Kurierdienstes.

Optional kann eine Websuche durchgeführt werden, um lokale Bedingungen zu ermitteln, die sich auf die Zustellung auswirken, z. B. Wetterbedingungen oder logistische Verzögerungen.

Datenintegration und LLM-Synthese：

Weitergabe relevanter Daten an den LLM, der die Informationen zu einer kohärenten Antwort zusammenfasst.

Erzeugung von Output：

Das System generiert eine umsetzbare und prägnante Antwort, die eine Echtzeitverfolgung von Aktualisierungen und möglichen Alternativen ermöglicht.

reaktionsschnell：

Integrierte AntwortIhr Paket befindet sich derzeit auf dem Transportweg und wird voraussichtlich morgen Abend ankommen. Die Echtzeitverfolgung von UPS zeigt, dass es sich in einem regionalen Verteilerzentrum befindet.

4.2 Multi-Agenten-RAG-System

Multi-Agenten-RAG [31] stellt eine modulare und skalierbare Weiterentwicklung der Einzel-Agenten-Architektur dar, die darauf abzielt, komplexe Prozesse und verschiedene Abfragetypen durch den Einsatz mehrerer spezialisierter Agenten (wie in Abbildung 12 dargestellt) zu bewältigen. Im Gegensatz zu einem einzelnen Agenten, der alle Aufgaben - Reasoning, Retrieval und Antwortgenerierung - bewältigt, weist das System die Verantwortlichkeiten mehreren Agenten zu, die jeweils für eine bestimmte Rolle oder Datenquelle optimiert sind.

Arbeitsablauf

Anfrage EinreichungDer Prozess beginnt mit einer Benutzeranfrage, die von einem koordinierenden Agenten oder einem Master-Retrieval-Agenten entgegengenommen wird. Dieser Agent fungiert als zentraler Koordinator und delegiert die Anfrage an einen spezialisierten Retrieval-Agenten entsprechend den Anforderungen der Anfrage.

Figure 12: An Overview of Multi-Agent Agentic RAG Systems

Spezialisierte SuchagentenAbfragen werden mehreren Retrieval Agents zugewiesen, die sich jeweils auf eine bestimmte Art von Datenquelle oder Aufgabe konzentrieren. Beispiel:
- Agent 1Bearbeitung strukturierter Abfragen, z. B. im Zusammenspiel mit SQL-basierten Datenbanken wie PostgreSQL oder MySQL.
- Agent 2Verwaltung semantischer Suchen zum Abrufen unstrukturierter Daten aus Quellen wie PDFs, Büchern oder internen Aufzeichnungen.
- Agent 3Schwerpunkt: Abruf von öffentlichen Informationen in Echtzeit aus Websuchen oder APIs.
- Agent 4Empfehlungssysteme: Spezialisiert auf Empfehlungssysteme, die auf der Grundlage des Nutzerverhaltens oder -profils kontextrelevante Vorschläge machen.
Werkzeugzugang und DatenabrufJeder Agent leitet die Abfrage an das entsprechende Tool oder die entsprechende Datenquelle innerhalb seines Bereichs weiter, zum Beispiel:
- Vektorsuche: für semantische Relevanz.
- Text zu SQLFür strukturierte Daten.
- Suche im InternetFür öffentliche Informationen in Echtzeit.
- APIFür den Zugriff auf externe Dienste oder proprietäre Systeme.

Der Abrufprozess wird parallel ausgeführt, was eine effiziente Verarbeitung verschiedener Abfragetypen ermöglicht.

Datenintegration und LLM-SyntheseSobald die Abfrage abgeschlossen ist, werden alle Daten des Agenten an das Large Language Model (LLM) weitergeleitet, das die abgerufenen Informationen zu einer kohärenten und kontextrelevanten Antwort zusammenfasst, die Erkenntnisse aus verschiedenen Quellen nahtlos integriert.
Erzeugung von OutputDas System generiert eine umfassende Antwort, die dem Benutzer in einem übersichtlichen Format zurückgegeben wird.

Hauptmerkmale und Vorteile

ModularisierungJeder Agent arbeitet unabhängig, so dass Agenten je nach Systemanforderungen nahtlos hinzugefügt oder entfernt werden können.
SkalierbarkeitParallele Verarbeitung mehrerer Agenten ermöglicht es dem System, hohe Abfragevolumina effizient zu bewältigen.
Spezialisierung der AufgabenJeder Agent ist für eine bestimmte Art von Abfrage oder Datenquelle optimiert, was die Genauigkeit und die Relevanz der Abfrage verbessert.
EffizienzDurch die Zuweisung von Aufgaben an spezielle Agenten minimiert das System Engpässe und verbessert die Leistung komplexer Arbeitsabläufe.
VielseitigkeitFür Anwendungen in verschiedenen Bereichen, einschließlich Forschung, Analyse, Entscheidungsfindung und Kundensupport.

Herausforderung

Komplexität der KoordinierungDie Verwaltung der Kommunikation zwischen Agenten und die Delegation von Aufgaben erfordert komplexe Koordinationsmechanismen.
rechnerischer AufwandParallele Verarbeitung mehrerer Agenten kann den Ressourcenverbrauch erhöhen.
DatenintegrationDie Integration von Ergebnissen aus verschiedenen Quellen in eine kohärente Antwort ist nicht einfach und erfordert fortgeschrittene LLM-Fähigkeiten.

Anwendungsfall: Multidisziplinärer Forschungsassistent

auf etw. aufmerksam machenWas sind die wirtschaftlichen und ökologischen Auswirkungen der Einführung erneuerbarer Energien in Europa?

Systemprozesse (Multi-Agenten-Workflow)：

Agent 1Abrufen von statistischen Daten aus einer Wirtschaftsdatenbank mittels SQL-Abfragen.

Agent 2Suche nach relevanten akademischen Arbeiten mit Hilfe semantischer Suchwerkzeuge.

Agent 3Suchen Sie im Internet nach den neuesten Nachrichten und politischen Updates zu erneuerbaren Energien.

Agent 4: Konsultieren Sie das Empfehlungssystem, um relevante Inhalte vorzuschlagen, z. B. Berichte oder Expertenkommentare.

reaktionsschnell：

Integrierte AntwortDie Einführung erneuerbarer Energien in Europa hat laut dem EU-Politikbericht in den letzten zehn Jahren zu einer Reduzierung der Treibhausgasemissionen um 20% geführt. Auf wirtschaftlicher Ebene wurden durch Investitionen in erneuerbare Energien rund 1,2 Millionen Arbeitsplätze geschaffen, wobei der Solar- und der Windsektor ein erhebliches Wachstum verzeichneten. Jüngste akademische Forschungen haben auch mögliche Kompromisse in Bezug auf die Netzstabilität und die Kosten für die Energiespeicherung aufgezeigt.

4.3 Hierarchisches agentenbasiertes RAG-System

Das hierarchische agentenbasierte RAG-System [17] verwendet einen strukturierten, mehrstufigen Ansatz zur Informationsbeschaffung und -verarbeitung, der die Effizienz und die strategische Entscheidungsfindung verbessert (siehe Abbildung 13). Die Agenten sind in einer hierarchischen Struktur organisiert, wobei Agenten der höheren Ebene die Agenten der unteren Ebene überwachen und anleiten. Diese Struktur ermöglicht eine mehrstufige Entscheidungsfindung und gewährleistet, dass die Anfragen von den am besten geeigneten Ressourcen bearbeitet werden.

Figure 13: An illustration of Hierarchical Agentic RAG

Arbeitsablauf

Quittung der AnfrageDer Benutzer stellt eine Anfrage, die vom Top-Level-Agenten entgegengenommen wird, der für die erste Bewertung und Inbetriebnahme zuständig ist.
strategische EntscheidungsfindungTop-Level-Agent: Der Top-Level-Agent bewertet die Komplexität der Abfrage und entscheidet, welche untergeordneten Agenten oder Datenquellen priorisiert werden sollen. Je nach Bereich der Abfrage können bestimmte Datenbanken, APIs oder Suchwerkzeuge als zuverlässiger oder relevanter angesehen werden.
Delegation an einen UntergebenenTop-Level-Agenten weisen Aufgaben an untergeordnete Agenten zu, die sich auf bestimmte Retrieval-Methoden spezialisiert haben (z. B. SQL-Datenbanken, Websuchen oder proprietäre Systeme). Diese Agenten führen die ihnen zugewiesenen Aufgaben selbständig aus.
Polymerisation und SyntheseAgenten auf höherer Ebene sammeln und integrieren Ergebnisse von untergeordneten Agenten und fassen Informationen zu kohärenten Antworten zusammen.
Zustellung der AntwortDie endgültige, zusammengefasste Antwort wird an den Benutzer zurückgesendet, um sicherzustellen, dass die Antwort sowohl umfassend als auch kontextbezogen ist.

Hauptmerkmale und Vorteile

Strategische PrioritätensetzungTop-Level-Agenten können Datenquellen oder Aufgaben auf der Grundlage der Komplexität der Abfrage, der Zuverlässigkeit oder des Kontexts priorisieren.
SkalierbarkeitDie Zuweisung von Aufgaben an mehrere Agentenebenen ermöglicht die Bearbeitung hochkomplexer oder vielschichtiger Anfragen.
Verbesserte Entscheidungsfähigkeit:: Hochrangige Beamte üben eine strategische Aufsicht aus, um die allgemeine Genauigkeit und Konsistenz der Reaktion zu verbessern.

Herausforderung

Komplexität der KoordinierungDie Aufrechterhaltung einer robusten Kommunikation zwischen den Agenten über mehrere Ebenen hinweg kann den Koordinationsaufwand erhöhen.
Zuweisung von RessourcenEs ist nicht einfach, Aufgaben effizient auf die verschiedenen Ebenen zu verteilen und gleichzeitig Engpässe zu vermeiden.

Anwendungsfall: Finanzanalysesystem

auf etw. aufmerksam machenWelche Investitionsmöglichkeiten für erneuerbare Energien gibt es angesichts der aktuellen Markttrends?

Systemprozesse (Hierarchischer Agenten-Workflow)：

Bearbeiter an der Spitze der HierarchieBewertung der Komplexität von Abfragen und Bevorzugung von zuverlässigen Finanzdatenbanken und Wirtschaftsindikatoren gegenüber weniger validierten Datenquellen.

Agenten der mittleren EbeneAbrufen von Echtzeit-Marktdaten (z. B. Aktienkurse, Branchenleistung) aus proprietären APIs und strukturierten SQL-Datenbanken.

Low-Level-AgentenRecherchieren Sie im Internet nach aktuellen Verlautbarungen und politischen Maßnahmen, und konsultieren Sie Empfehlungssysteme, um Expertenmeinungen und Nachrichtenanalysen zu verfolgen.

Polymerisation und SyntheseProxy-Aggregationsergebnisse auf höchster Ebene, die quantitative Daten mit politischen Erkenntnissen verbinden.

reaktionsschnell：

Integrierte AntwortAuf der Grundlage aktueller Marktdaten sind die Anteile an erneuerbaren Energien im vergangenen Quartal um 15% gestiegen, was vor allem auf die unterstützende Politik der Regierungen und das große Interesse der Anleger zurückzuführen ist. Analysten sind der Ansicht, dass die Sektoren Wind- und Solarenergie wahrscheinlich weiter an Dynamik gewinnen werden, während aufstrebende Technologien wie grüner Wasserstoff ein moderates Risiko aufweisen, aber hohe Renditen bieten können."

4.4 Stellvertretende RAG-Korrekturen

Corrective RAG [32] [33] führt die Fähigkeit zur Selbstkorrektur von Retrieval-Ergebnissen ein, wodurch die Dokumentennutzung und die Qualität der Antwortgenerierung verbessert werden (wie in Abbildung 14 gezeigt). Durch die Einbettung intelligenter Agenten in den Arbeitsablauf gewährleistet Corrective RAG [32] [33] eine iterative Verfeinerung der kontextbezogenen Dokumente und Antworten, um Fehler zu minimieren und die Relevanz zu maximieren.

Figure 14: Overview of Agentic Corrective RAG

Korrektur des Kerngedankens der RAGDas Kernprinzip von Corrective RAG liegt in seiner Fähigkeit, die abgerufenen Dokumente dynamisch zu bewerten, Korrekturen vorzunehmen und die Abfrage zu verfeinern, um die Qualität der generierten Antwort zu verbessern. Corrective RAG passt seine Methodik wie folgt an:

Bewertung der DokumentenrelevanzAbgerufene Dokumente werden von einem Relevanzbewertungsagenten bewertet. Dokumente unterhalb der Relevanzschwelle lösen einen Korrekturschritt aus.
Verfeinerung und Erweiterung der AnfrageAbfragen werden durch einen Abfrageverfeinerungsagenten verfeinert, der semantisches Verständnis nutzt, um die Abfrage für bessere Ergebnisse zu optimieren.
Dynamischer Abruf aus externen QuellenWenn der Kontext nicht ausreicht, führt der externe Wissensabruf-Agent eine Websuche durch oder greift auf alternative Datenquellen zu, um die abgerufenen Dokumente zu ergänzen.
AntwortsyntheseAlle validierten und verfeinerten Informationen werden an den Agenten für die Antwortsynthese zur endgültigen Generierung der Antwort weitergeleitet.

ArbeitsablaufDas RAG-Korrektursystem basiert auf fünf Schlüsselkomponenten:

kontextbezogener SuchagentVector: Verantwortlich für den Abruf des ersten Kontextdokuments aus der Vektordatenbank.
Agent für RelevanzbewertungBewertung der Relevanz der abgerufenen Dokumente und Kennzeichnung irrelevanter oder zweideutiger Dokumente für Korrekturmaßnahmen.
AnfrageveredlerRewriting von Abfragen zur Verbesserung der Abfrageeffizienz und Nutzung des semantischen Verständnisses zur Optimierung der Ergebnisse.
Externer Agent für die WissensbeschaffungInternetrecherchen durchführen oder auf alternative Datenquellen zugreifen, wenn die kontextbezogene Dokumentation nicht ausreichend ist.
Antwort-Synthese-MittelIntegrieren Sie alle validierten Informationen in eine kohärente und genaue Antwort.

Hauptmerkmale und Vorteile:

Iterative KorrekturGewährleistung einer hohen Antwortgenauigkeit durch dynamisches Erkennen und Korrigieren irrelevanter oder zweideutiger Suchergebnisse.
Dynamische AnpassungIntegration von Echtzeit-Web-Suche und Abfrageverfeinerung zur Verbesserung der Abfragegenauigkeit.
Proxy ModularJeder Agent führt spezielle Aufgaben aus, um einen effizienten und skalierbaren Betrieb zu gewährleisten.
Tatsächliche GarantienRAG-Korrektur: Die Korrektur der RAG minimiert das Risiko von Halluzinationen oder Fehlinformationen, indem alle abgerufenen und generierten Inhalte validiert werden.

Anwendungsfall: Wissenschaftlicher Mitarbeiter

auf etw. aufmerksam machenWas sind die neuesten Erkenntnisse aus der generativen KI-Forschung?

Systemprozesse (Korrektur der RAG-Workflows)：

Anfrage EinreichungBenutzer stellen Abfragen an das System.

kontextbezogene Suche：

kontextbezogener SuchagentRufen Sie erste Dokumente aus der Datenbank veröffentlichter Artikel über generative KI ab.

Die abgerufenen Dokumente werden zur Auswertung an den nächsten Schritt weitergeleitet.

Bewertung der Relevanz:

Agent für RelevanzbewertungBewerten Sie die Übereinstimmung zwischen dem Dokument und der Abfrage.

Einstufung der Dokumente als relevant, zweideutig oder irrelevant. Irrelevante Dokumente werden für Korrekturmaßnahmen gekennzeichnet.

Abhilfemaßnahmen (falls erforderlich):

AnfrageveredlerUmschreiben von Abfragen zur Verbesserung der Spezifität.

Externer Agent für die WissensbeschaffungFühren Sie Internetrecherchen durch, um zusätzliche Dokumente und Berichte aus externen Quellen zu erhalten.

Antwort-Synthese.

Antwort-Synthese-MittelIntegrieren Sie validierte Dokumente in umfassende und detaillierte Zusammenfassungen.

Antwort.

Integrierte AntwortAktuelle Ergebnisse der generativen KI-Forschung umfassen Diffusionsmodelle, Verstärkungslernen bei Text-zu-Video-Aufgaben und Fortschritte bei Optimierungstechniken für das Training von Modellen in großem Maßstab. Weitere Einzelheiten finden Sie in der auf der NeurIPS 2024 und der AAAI 2025 vorgestellten Forschung."

4.5 Adaptive agentenbasierte RAG

Adaptive Retrieval Augmented Generation (Adaptive RAG) [34] verbessert die Flexibilität und Effizienz von Large Language Models (LLMs), indem es die Strategie der Anfrageverarbeitung dynamisch an die Komplexität der eingehenden Anfrage anpasst. Im Gegensatz zu statischen Retrieval-Workflows setzt Adaptive RAG [35] Klassifikatoren ein, um die Komplexität der Anfrage zu analysieren und den am besten geeigneten Ansatz zu bestimmen, der von einstufigem Retrieval bis zu mehrstufigem Reasoning reicht oder sogar das Retrieval bei einfachen Anfragen ganz umgeht, wie in Abbildung 15 gezeigt.

Figure 15: An Overview of Adaptive Agentic RAG

Die Kernidee der adaptiven RAG Das Kernprinzip der adaptiven RAG liegt in ihrer Fähigkeit, die Suchstrategie dynamisch an die Komplexität der Anfrage anzupassen. Die adaptive RAG passt ihre Methode wie folgt an:

einfache AbfrageBei Sachfragen, die eine zusätzliche Abfrage erfordern (z. B. "Wie hoch ist der Siedepunkt von Wasser?"), generiert das System die Antworten direkt aus dem vorhandenen Wissen. :: Bei Sachfragen, die eine zusätzliche Suche erfordern (z. B. "Wie hoch ist der Siedepunkt von Wasser?"), generiert das System die Antworten direkt unter Verwendung des bereits vorhandenen Wissens.
einfache Abfrage:: Bei mäßig komplexen Aufgaben, die nur wenig Kontext erfordern (z. B. "Wie ist der Stand meiner letzten Stromrechnung?") führt das System eine einstufige Suche durch, um die relevanten Details zu erhalten.
komplexe Abfrage:: Bei mehrstufigen Abfragen, die eine iterative Argumentation erfordern (z. B. "Wie hat sich die Bevölkerung der Stadt X in den letzten zehn Jahren verändert, und welche Faktoren haben dazu beigetragen?") verwendet das System eine mehrstufige Suche, bei der Zwischenergebnisse schrittweise verfeinert werden, um umfassende Antworten zu erhalten.

ArbeitsablaufDas adaptive RAG-System besteht aus drei Hauptkomponenten:

Rolle des Klassifizierers.
- Ein kleineres Sprachmodell analysiert die Abfragen, um ihre Komplexität vorherzusagen.
- Der Klassifikator wird mit automatisch gekennzeichneten Datensätzen trainiert, die aus früheren Modellergebnissen und Abfragemustern abgeleitet werden.
Dynamische Strategieauswahl.
- Bei einfachen Abfragen vermeidet das System unnötige Suchvorgänge und generiert die Antworten direkt mit LLM.
- Für einfache Abfragen wird ein einstufiger Suchprozess verwendet, um den relevanten Kontext zu erhalten.
- Bei komplexen Abfragen wird ein mehrstufiger Abruf aktiviert, um eine iterative Verfeinerung und eine verbesserte Argumentation zu gewährleisten.
LLM-Integration.
- LLM integriert die abgerufenen Informationen in eine kohärente Antwort.
- Die iterative Interaktion zwischen LLM und Klassifikatoren ermöglicht die Verfeinerung komplexer Abfragen.

Hauptmerkmale und Vorteile.

Dynamische Anpassung:: Anpassung der Abfragestrategien an die Komplexität der Abfrage zur Optimierung der Berechnungseffizienz und der Antwortgenauigkeit.
Ressourceneffizienz:: Minimierung des unnötigen Aufwands für einfache Abfragen bei gleichzeitiger Gewährleistung einer gründlichen Verarbeitung komplexer Abfragen.
Verbesserte GenauigkeitIterative Verfeinerung: Iterative Verfeinerung stellt sicher, dass komplexe Abfragen mit hoher Genauigkeit gelöst werden.
GeschicklichkeitKann erweitert werden, um zusätzliche Pfade zu integrieren, z. B. domänenspezifische Tools oder externe APIs.

Anwendungsfälle. Assistentin der Kundenbetreuung

Tipp. Warum ist mein Paket verspätet und welche Möglichkeiten habe ich?

Systemprozesse (Adaptiver RAG-Workflow).

Anfrage Kategorie.

Der Klassifikator analysiert die Anfrage und stellt fest, dass es sich um eine komplexe Anfrage handelt, die eine mehrstufige Argumentation erfordert.

Dynamische Strategieauswahl.

Das System aktiviert einen mehrstufigen Abrufprozess, der auf der Klassifizierung der Komplexität beruht.

Suche in mehreren Schritten.

Abrufen von Tracking-Details aus der Auftragsdatenbank.

Erhalten Sie Statusaktualisierungen in Echtzeit von der Courier-API.

Führen Sie eine Internetrecherche durch, um nach externen Faktoren wie Wetterbedingungen oder lokalen Störungen zu suchen.

Antwort-Synthese.

LLM integriert alle abgerufenen Informationen in eine umfassende und umsetzbare Antwort.

Antwort.

Integrierte AntwortIhr Paket hat sich aufgrund der schlechten Wetterbedingungen in Ihrer Region verzögert. Es befindet sich derzeit im örtlichen Verteilzentrum und wird voraussichtlich innerhalb von 2 Tagen eintreffen. Alternativ können Sie es auch dort abholen."

4.6 Graphenbasierte agentenbasierte RAGs

4.6.1 Agent-G: Ein agentenbasierter Rahmen für Graphen-RAGs

Agent-G [8] stellt eine innovative agentenbasierte Architektur vor, die Graphen-Wissensdatenbanken mit der Suche nach unstrukturierten Dokumenten kombiniert. Durch die Kombination von strukturierten und unstrukturierten Datenquellen verbessert dieses Framework die Schlussfolgerungen und die Abrufgenauigkeit von Retrieval Augmented Generation (RAG) Systemen. Es verwendet modulare Retriever-Bibliotheken, dynamische Agenteninteraktionen und Rückkopplungsschleifen, um eine qualitativ hochwertige Ausgabe zu gewährleisten (siehe Abbildung 16).

Figure 16: An Overview of Agent-G: Agentic Framework for Graph RAG

Die Kernidee von Agent-G Das Kernprinzip von Agent-G liegt in der Fähigkeit, Suchaufgaben dynamisch an spezialisierte Agenten zu vergeben, die Graph-Wissensbasen und Textdateien nutzen. Agent-G passt seine Suchstrategien wie folgt an:

grafische WissensbasisStrukturierte Daten verwenden, um Beziehungen, Hierarchien und Verbindungen zu extrahieren (z. B. Zuordnung von Krankheiten zu Symptomen im medizinischen Bereich).
unstrukturiertes Dokument:: Herkömmliche Textsuchsysteme liefern kontextbezogene Informationen, um die Graphdaten zu ergänzen.
Modul Kritik:: Bewertung der Relevanz und Qualität der abgerufenen Informationen, um die Übereinstimmung mit der Anfrage sicherzustellen.
Rückkopplungsschleife:: Verfeinerung des Abrufs und der Synthese durch iterative Validierung und erneute Abfrage.

ArbeitsablaufDas : Agent-G-System besteht aus vier Hauptkomponenten:

Retriever-Bibliothek.
- Eine Reihe von modularen Agenten ist auf das Abrufen von graphbasierten oder unstrukturierten Daten spezialisiert.
- Der Agent wählt dynamisch relevante Quellen auf der Grundlage der Anforderungen der Abfrage aus.
Modul "Kritik".
- Validieren Sie die Relevanz und Qualität der abgerufenen Daten.
- Markieren Sie Ergebnisse mit niedrigem Konfidenzniveau zum erneuten Abrufen oder Verfeinern.
Dynamische Agenteninteraktion.
- Aufgabenspezifische Agenten arbeiten zusammen, um verschiedene Arten von Daten zu integrieren.
- Gewährleistung einer koordinierten Abfrage und Synthese zwischen Bild- und Textquellen.
LLM-Integration.
- Synthese der validierten Daten zu einer kohärenten Antwort.
- Das iterative Feedback des Kritikmoduls gewährleistet die Übereinstimmung mit der Anfrageabsicht.

Hauptmerkmale und Vorteile.

verbesserte ArgumentationKombinieren Sie strukturierte Beziehungen in einem Diagramm mit kontextuellen Informationen aus unstrukturierten Dokumenten.
Dynamische Anpassung:: Dynamische Anpassung von Suchstrategien an die Anforderungen von Anfragen.
Verbesserte GenauigkeitDas Modul "Critique" verringert das Risiko, dass irrelevante oder minderwertige Daten in der Antwort enthalten sind.
Skalierbare Modularität:: Unterstützung für das Hinzufügen neuer Agenten, die spezielle Aufgaben für eine bessere Skalierbarkeit ausführen.

Anwendungsfälle: Medizinische Diagnostik

Tipp. Was sind die häufigsten Symptome von Typ-2-Diabetes und wie hängen sie mit Herzerkrankungen zusammen?

System-Prozesse (Agent-G Workflow).

Entgegennahme und Verteilung von Abfragen:: Das System erhält Anfragen und erkennt die Notwendigkeit, sowohl graph-strukturierte als auch unstrukturierte Daten zu verwenden, um die Frage vollständig zu beantworten.

Chart Finder.

Extrahieren des Zusammenhangs zwischen Typ-2-Diabetes und Herzerkrankungen aus dem Medical Knowledge Graph.

Identifizieren Sie gemeinsame Risikofaktoren wie Fettleibigkeit und Bluthochdruck, indem Sie grafische Hierarchien und Beziehungen untersuchen.

Document Retriever.

Suchen Sie in der medizinischen Fachliteratur nach Beschreibungen von Typ-2-Diabetes-Symptomen (z. B. vermehrter Durst, häufiges Wasserlassen, Müdigkeit).

Fügen Sie kontextbezogene Informationen hinzu, um grafikbasierte Erkenntnisse zu ergänzen.

Modul "Kritik".

Bewerten Sie die Relevanz und Qualität der abgerufenen Diagramm- und Dokumentdaten.

Markieren Sie Ergebnisse mit niedrigem Vertrauen zur Verfeinerung oder erneuten Abfrage.

AntwortsyntheseLLM integriert Validierungsdaten aus dem Graph Retriever und dem Document Retriever in eine kohärente Antwort und gewährleistet so die Übereinstimmung mit der Anfrageabsicht.

Antwort.

Integrierte AntwortZu den Symptomen des Typ-2-Diabetes gehören vermehrter Durst, häufiges Wasserlassen und Müdigkeit. Studien haben einen 50%-Zusammenhang zwischen Diabetes und Herzkrankheiten gezeigt, vor allem durch gemeinsame Risikofaktoren wie Fettleibigkeit und Bluthochdruck."

4.6.2 GeAR: Graph Augmentation Agent for Retrieval Augmentation Generation

GeAR [36] stellt einen agentenbasierten Rahmen vor, der herkömmliche Retrieval Augmented Generation (RAG)-Systeme durch die Integration graphbasierter Retrieval-Mechanismen erweitert. Durch die Verwendung von Graphenerweiterungstechniken und einer agentenbasierten Architektur geht GeAR auf die Herausforderungen in Multi-Hop-Retrieval-Szenarien ein und verbessert die Fähigkeit des Systems, komplexe Abfragen zu bearbeiten, wie in Abbildung 17 dargestellt.

Figure 17: An Overview of GeAR: Graph-Enhanced Agent for Retrieval-Augmented Generation[36]

Die Kernidee von GeAR GeAR verbessert die RAG-Leistung durch zwei wichtige Innovationen:

grafische ErweiterungVerbessert herkömmliche Baseline Retriever (z. B. BM25), indem es den Retrievalprozess um graphenstrukturierte Daten erweitert, so dass das System komplexe Beziehungen und Abhängigkeiten zwischen Entitäten erfassen kann.
VertretungsregelungIntegriert eine agentenbasierte Architektur, die Graphenerweiterungen nutzt, um Suchaufgaben effizienter zu verwalten und dynamische und autonome Entscheidungen während des Suchvorgangs zu ermöglichen.

ArbeitsablaufDas GeAR-System arbeitet mit den folgenden Komponenten:

Abbildung Erweiterungsmodul.
- Durch die Integration von graphenbasierten Daten in den Suchprozess kann das System Beziehungen zwischen Entitäten während des Suchvorgangs berücksichtigen.
- Verbesserung der Fähigkeit der Basissuchmaschine, Multi-Hop-Anfragen zu bearbeiten, indem der Suchraum um verbundene Entitäten erweitert wird.
Agentenbasiertes Retrieval.
- Zur Verwaltung des Suchprozesses wird ein Agentenrahmen verwendet, der es den Agenten ermöglicht, Suchstrategien je nach Komplexität der Anfrage dynamisch auszuwählen und zu kombinieren.
- Agenten können autonom über einen Suchpfad entscheiden, indem sie Graphenerweiterungen nutzen, um die Relevanz und Genauigkeit der abgerufenen Informationen zu verbessern.
LLM-Integration.
- Die Kombination der abgerufenen Informationen mit den Vorteilen von Graphenerweiterungen mit den Möglichkeiten von Large Language Modelling (LLM), um kohärente und kontextbezogene Antworten zu generieren.
- Diese Integration gewährleistet, dass der Generierungsprozess sowohl von unstrukturierten Dokumenten als auch von strukturierten Graphdaten inspiriert wird.

Hauptmerkmale und Vorteile.

Verbesserte Multi-Hop-Suche:: Die Graphenerweiterungen von GeAR ermöglichen es dem System, komplexe Abfragen zu bearbeiten, die Schlussfolgerungen über mehrere miteinander verbundene Informationen erfordern.
Entscheidungsfindung durch BevollmächtigteDer Proxy-Rahmen ermöglicht eine dynamische und autonome Auswahl von Abrufstrategien, wodurch Effizienz und Relevanz verbessert werden.
Verbesserte Genauigkeit:: Durch die Integration von strukturierten Graphdaten verbessert GeAR die Genauigkeit der abgerufenen Informationen, um genauere und kontextgerechte Antworten zu generieren.
SkalierbarkeitDer modulare Charakter des Agentenrahmens ermöglicht die Integration zusätzlicher Suchstrategien und Datenquellen nach Bedarf.

Anwendungsfall: Multi-hop Quiz

Tipp. Wer hat J.K. Rowlings Mentorin beeinflusst?

System-Prozesse (GeAR-Workflow).

Bearbeiter an der Spitze der HierarchieBewertung des Multi-Hop-Charakters der Anfrage und Bestimmung der Notwendigkeit, Graphenerweiterung und Dokumentenabfrage zu kombinieren, um die Frage zu beantworten.

Abbildung Erweiterungsmodul.

Identifizieren Sie J.K. Rowlings Mentor als Schlüsselperson in der Abfrage.

Rückverfolgung der literarischen Einflüsse von Mentoren durch Untersuchung der Daten aus der Struktur der Literary Relationship Map.

Agentenbasiertes Retrieval.

Ein Agent wählt selbstständig einen graphenerweiterten Suchpfad, um relevante Informationen über die Auswirkungen des Mentors zu sammeln.

Integrieren Sie zusätzlichen Kontext für unstrukturierte Details über Mentoren und ihre Einflüsse, indem Sie textuelle Datenquellen abfragen.

AntwortsyntheseLLM: Verwenden Sie LLM, um Erkenntnisse aus dem Graphen und dem Dokumentenabrufprozess zu kombinieren, um eine Antwort zu generieren, die die komplexen Beziehungen in der Anfrage genau wiedergibt.

Antwort.

Integrierte AntwortJ.K. Rowlings Mentorin, [Name der Mentorin], wurde stark von [Name des Autors] beeinflusst, der für sein [berühmtes Werk oder Genre] bekannt ist. Diese Verbindung verdeutlicht die kaskadenartigen Beziehungen in der Literaturgeschichte, wo einflussreiche Ideen oft über mehrere Generationen von Schriftstellern weitergegeben werden."

4.7 Agentenbasierte Dokumenten-Workflows in agentenbasierten RAGs

Agentische Dokumenten-Workflows (ADW)[37] erweitert das traditionelle Retrieval Augmented Generation (RAG)-Paradigma durch die Automatisierung von End-to-End-Wissensarbeit. Diese Workflows orchestrieren komplexe dokumentenzentrierte Prozesse, die Dokumenten-Parsing, Retrieval, Reasoning und strukturierte Ausgabe mit intelligenten Agenten integrieren (siehe Abbildung 18).ADW-Systeme adressieren die Einschränkungen von Intelligent Document Processing (IDP) und RAG, indem sie den Status beibehalten, mehrstufige Workflows orchestrieren und domänenspezifische Logik auf Dokumente anwenden.

Arbeitsablauf

Parsing von Dokumenten und Strukturierung von Informationen：
- Verwenden Sie Tools auf Unternehmensebene (z. B. LlamaParse) zum Parsen von Dokumenten, um relevante Datenfelder wie Rechnungsnummern, Daten, Lieferanteninformationen, Einträge und Zahlungsbedingungen zu extrahieren.
- Organisieren Sie strukturierte Daten für die Weiterverarbeitung.
Prozessübergreifende Statuspflege：
- Das System behält den Zustand des jeweiligen Dokumentenkontextes bei und sorgt so für Konsistenz und Relevanz in mehrstufigen Arbeitsabläufen.
- Verfolgen Sie den Weg der Dokumente durch die verschiedenen Phasen der Bearbeitung.
Wissensabfrage：
- Abrufen relevanter Referenzen aus externen Wissensdatenbanken (z. B. LlamaCloud) oder Vektorindizes.
- Abrufen von bereichsspezifischen Anleitungen in Echtzeit für eine bessere Entscheidungsfindung.
Agentenbasierte Terminplanung：
- Intelligente Agenten wenden Geschäftsregeln an, führen Multi-Hop-Reasoning durch und generieren umsetzbare Empfehlungen.
- Orchestrierung von Komponenten wie Parsern, Retrievern und externen APIs für eine nahtlose Integration.
Erzeugung umsetzbarer Ergebnisse：
- Die Ergebnisse werden in einem strukturierten Format präsentiert, das auf spezifische Anwendungsfälle zugeschnitten ist.
- Zusammenfassen von Empfehlungen und gewonnenen Erkenntnissen in prägnanten, umsetzbaren Berichten.

Figure 18: An Overview of Agentic Document Workflows (ADW) [37]

Anwendungsfall: Workflow für die Rechnungszahlung

auf etw. aufmerksam machenGenerieren Sie einen Zahlungsavis-Bericht auf der Grundlage der eingereichten Rechnungen und der Bedingungen des jeweiligen Lieferantenvertrags.

Systemprozesse (ADW-Workflow)：

Parsing von Rechnungen, um wichtige Details wie Rechnungsnummer, Datum, Lieferanteninformationen, Einträge und Zahlungsbedingungen zu extrahieren.

Rufen Sie die entsprechenden Lieferantenverträge ab, um die Zahlungsbedingungen zu überprüfen und eventuelle Rabatte oder Compliance-Anforderungen zu ermitteln.

Erstellen Sie einen Bericht mit Zahlungsempfehlungen, der den ursprünglich fälligen Betrag, mögliche Nachlässe für vorzeitige Zahlungen, eine Analyse der Auswirkungen auf das Budget und strategische Zahlungsmaßnahmen enthält.

reaktionsschnellKonsolidierte Antwort: "Die Rechnung INV-2025-045 in Höhe von $15.000,00 wurde bearbeitet. Wenn die Zahlung bis zum 2025-04-10 erfolgt, ist ein Frühzahlerrabatt von 2% möglich, wodurch sich der fällige Betrag auf $14.700,00 reduziert. Da die Zwischensumme $10.000,00 übersteigt, wurde ein Großbestellerrabatt von 5% gewährt. Es wird empfohlen, die vorzeitige Zahlung zu genehmigen, um 21 TP3T einzusparen und die rechtzeitige Zuweisung der Mittel für die kommenden Projektphasen zu gewährleisten."

Hauptmerkmale und Vorteile

ZustandserhaltungVerfolgung des Dokumentenkontextes und der Arbeitsablaufphasen, um die Konsistenz der Prozesse zu gewährleisten.
mehrstufige ProgrammierungHandhabung komplexer Arbeitsabläufe mit mehreren Komponenten und externen Tools.
Bereichsspezifische IntelligenzAnwendung maßgeschneiderter Geschäftsregeln und Richtlinien für eine genaue Beratung.
SkalierbarkeitUnterstützt die Verarbeitung umfangreicher Dokumente mit modularer und dynamischer Agentenintegration.
Steigerung der ProduktivitätAutomatisierung sich wiederholender Aufgaben bei gleichzeitiger Verbesserung der menschlichen Kompetenz bei der Entscheidungsfindung.

4.8 Vergleichende Analyse von agentenbasierten RAG-Rahmenwerken

Tabelle 2 enthält eine umfassende vergleichende Analyse der drei Architekturen: traditionelle RAG, agentenbasierte RAG und agentenbasierter Dokumenten-Workflow (ADW). Die Analyse hebt ihre jeweiligen Stärken, Schwächen und Best-Fit-Szenarien hervor und liefert wertvolle Erkenntnisse für die Anwendung in verschiedenen Anwendungsfällen.

Tabelle 2: Vergleichende Analyse: traditionelle RAG vs. agentenbasierte RAG vs. agentenbasierter Dokumenten-Workflow (ADW)

Charakterisierung	Traditionelle RAG	Proxy RAG	Agentenbasierter Dokumenten-Workflow (ADW)
Nachzählung (z.B. Wahlergebnisse)	Isolierte Abruf- und Erzeugungsaufgaben	Multi-Agenten-Kollaboration und Argumentation	Dokumentenzentrierte End-to-End-Workflows
Pflege des Kontexts	Zwänge	Realisierung durch Speichermodule	Pflege des Status in einem mehrstufigen Workflow
Dynamische Anpassung	minimal	高	Maßgeschneidert für den Dokumenten-Workflow
Organisation des Arbeitsablaufs	Hiatus	Orchestrierung von Multi-Agenten-Aufgaben	Integrierte mehrstufige Dokumentenverarbeitung
Verwendung von externen Tools/APIs	Grundlegende Integration (z. B. Suchwerkzeuge)	Erweiterung durch Werkzeuge (z. B. APIs und Wissensdatenbanken)	Tiefe Integration mit Geschäftsregeln und bereichsspezifischen Tools
Skalierbarkeit	Begrenzt auf kleine Datensätze oder Abfragen	Skalierbares Multiagentensystem	Skalierbare multidisziplinäre Unternehmens-Workflows
komplexe Inferenz	Einfach (z. B. einfaches Quiz)	Mehrschrittige Argumentation mit Agenten	Strukturierte Argumentation über Dokumente hinweg
wichtige Anwendung	Q&A-System, Wissensabfrage	Multidisziplinäre Kenntnisse und Argumentation	Vertragsprüfung, Rechnungsbearbeitung, Schadensanalyse
Schneidkante	Einfache, schnelle Einrichtung	Hohe Genauigkeit, kollaborative Argumentation	End-to-End-Automatisierung, domänenspezifische Intelligenz
Herausforderung	Unzureichendes kontextuelles Verständnis	Komplexität der Koordinierung	Ressourcenaufwand, Feldstandardisierung

Die vergleichende Analyse zeigt die Entwicklung von der traditionellen RAG über die agentenbasierte RAG bis hin zum agentenbasierten Dokumenten-Workflow (ADW). Während traditionelles RAG die Vorteile der Einfachheit und des leichten Einsatzes für grundlegende Aufgaben bietet, führt agentenbasiertes RAG erweiterte Argumentationsfähigkeiten und Skalierbarkeit durch Multi-Agenten-Kollaboration ein.ADW baut auf diesen Fortschritten auf, indem es robuste, dokumentenzentrierte Workflows bietet, die eine durchgehende Automatisierung und Integration mit domänenspezifischen Prozessen erleichtern. Das Verständnis der Stärken und Grenzen der einzelnen Frameworks ist entscheidend für die Auswahl der Architektur, die am besten zu den spezifischen Anwendungsbedürfnissen und betrieblichen Anforderungen passt.

5 Anwendung der stellvertretenden RAG

Agentenbasierte Retrieval Augmented Generation (RAG)-Systeme haben in einer Vielzahl von Bereichen ein transformatives Potenzial. Durch die Kombination von Echtzeit-Datenabfrage, generativen Fähigkeiten und autonomer Entscheidungsfindung bewältigen diese Systeme komplexe, dynamische und multimodale Herausforderungen. In diesem Abschnitt werden die wichtigsten Anwendungen von agentenbasierten RAG-Systemen untersucht und es wird erläutert, wie diese Systeme Bereiche wie Kundensupport, Gesundheitswesen, Finanzwesen, Bildung, juristische Arbeitsabläufe und die Kreativwirtschaft beeinflussen.

5.1 Kundenbetreuung und virtuelle Assistenten

Agentenbasierte RAG-Systeme revolutionieren den Kundensupport, indem sie eine kontextabhängige Lösung von Anfragen in Echtzeit ermöglichen. Traditionelle Chatbots und virtuelle Assistenten stützen sich oft auf statische Wissensdatenbanken, was zu generischen oder veralteten Antworten führt. Im Gegensatz dazu rufen agentenbasierte RAG-Systeme dynamisch die relevantesten Informationen ab, passen sich dem Kontext des Benutzers an und generieren personalisierte Antworten.

Anwendungsfall: Verbesserung des Anzeigenverkaufs auf Twitch [38]

Twitch nutzt zum Beispiel einen agenturähnlichen Workflow mit RAG auf Amazon Bedrock, um den Anzeigenverkauf zu optimieren. Das System ruft dynamisch Daten von Werbetreibenden, historische Kampagnenleistung und Publikumsstatistiken ab, um detaillierte Anzeigenvorschläge zu generieren, was die betriebliche Effizienz erheblich verbessert.

Wichtigste Vorteile:

Verbesserung der Qualität der AntwortenPersonalisierte und kontextbezogene Antworten erhöhen das Engagement der Nutzer.
Operative EffizienzReduzierung der Arbeitsbelastung manueller Supportmitarbeiter durch Automatisierung komplexer Abfragen.
Anpassungsfähigkeit in EchtzeitDynamische Integration sich entwickelnder Daten, wie z. B. Echtzeit-Serviceausfälle oder Preisaktualisierungen.

5.2 Medizinische Behandlung und personalisierte Medizin

Im Gesundheitswesen ist die Kombination von patientenspezifischen Daten mit den neuesten medizinischen Forschungsergebnissen entscheidend, um fundierte Entscheidungen zu treffen. Agentenbasierte RAG-Systeme ermöglichen dies, indem sie in Echtzeit klinische Leitlinien, medizinische Fachliteratur und Patientengeschichten abrufen, um den Arzt bei der Diagnose und Behandlungsplanung zu unterstützen.

Anwendungsfälle: Zusammenfassung von Patientenfällen [39]

Agentenbasierte RAG-Systeme wurden bereits zur Erstellung von Zusammenfassungen von Patientenfällen eingesetzt. Durch die Integration elektronischer Gesundheitsakten (EHR) und aktueller medizinischer Fachliteratur erstellt das System beispielsweise umfassende Zusammenfassungen für Kliniker, damit diese schnellere und fundiertere Entscheidungen treffen können.

Wichtigste Vorteile:

Personalisierte PflegeEmpfehlungen an die Bedürfnisse der einzelnen Patienten anpassen.
ZeiteffizienzRationalisieren Sie das Auffinden relevanter Studien und sparen Sie wertvolle Zeit für Gesundheitsdienstleister.
GenauigkeitEmpfehlungen müssen auf den neuesten Erkenntnissen und patientenspezifischen Parametern beruhen.

5.3 Rechtliche und vertragliche Analyse

Agentenbasierte RAG-Systeme definieren die Art und Weise, wie juristische Arbeitsabläufe ausgeführt werden, neu und bieten Werkzeuge für eine schnelle Dokumentenanalyse und Entscheidungsfindung.

Anwendungsfälle: Vertragsprüfung [40]

Ein RAG-System im Stil eines Rechtsagenten analysiert Verträge, extrahiert Schlüsselklauseln und identifiziert potenzielle Risiken. Durch die Kombination von semantischen Suchfunktionen und juristischer Wissenszuordnung automatisiert es den mühsamen Prozess der Vertragsprüfung, gewährleistet die Einhaltung der Vorschriften und mindert das Risiko.

Wichtigste Vorteile:

RisikoermittlungAutomatisch: Kennzeichnet Klauseln, die von den Standardklauseln abweichen.
EffizienzVerringerung des Zeitaufwands für die Vertragsprüfung.
SkalierbarkeitBearbeitung einer großen Anzahl von Verträgen zur gleichen Zeit.

5.4 Finanz- und Risikoanalyse

Agentengestützte RAG-Systeme verändern die Finanzbranche, indem sie in Echtzeit Erkenntnisse für Anlageentscheidungen, Marktanalysen und Risikomanagement liefern. Diese Systeme integrieren Echtzeit-Datenströme, historische Trends und Prognosemodelle, um umsetzbare Ergebnisse zu erzielen.

Anwendungsfälle: Bearbeitung von Kfz-Versicherungsansprüchen [41]

In der Kfz-Versicherung automatisiert die agentenbasierte RAG die Schadenbearbeitung. Indem sie zum Beispiel Versicherungsdetails abruft und mit Unfalldaten kombiniert, erstellt sie Schadensmeldungen und stellt dabei die Einhaltung der gesetzlichen Vorschriften sicher.

Wichtigste Vorteile:

Echtzeit-AnalyseBietet Einblicke auf der Grundlage von Echtzeit-Marktdaten.
RisikominderungIdentifizieren Sie potenzielle Risiken mithilfe von prädiktiven Analysen und mehrstufigen Schlussfolgerungen.
Verbesserte EntscheidungsfähigkeitKombinieren Sie historische und Echtzeitdaten, um eine umfassende Strategie zu entwickeln.

5.5 Bildung

Bildung ist ein weiterer Bereich, in dem agentenbasierte RAG-Systeme erhebliche Fortschritte gemacht haben. Diese Systeme ermöglichen adaptives Lernen, indem sie Erklärungen, Lernmaterialien und Feedback generieren, die sich an den Fortschritt und die Präferenzen des Lernenden anpassen.

Anwendungsfälle: Erstellung von Forschungspapieren [42]

Im Hochschulbereich wurde die agentenbasierte RAG zur Unterstützung von Forschern eingesetzt, indem wichtige Erkenntnisse aus verschiedenen Quellen zusammengefasst wurden. Forscher, die zum Beispiel die Frage "Was sind die neuesten Fortschritte im Quantencomputing? eine prägnante Zusammenfassung mit Verweisen erhalten und so die Qualität und Effizienz ihrer Arbeit verbessern.

Wichtigste Vorteile:

Maßgeschneiderte LernpfadeAnpassung des Inhalts an die Bedürfnisse und das Leistungsniveau der einzelnen Schüler.
Engagierte InteraktionenInteraktive Erklärungen und personalisiertes Feedback anbieten.
SkalierbarkeitUnterstützt den großflächigen Einsatz in einer Vielzahl von Bildungsumgebungen.

5.6 Anwendungen zur Graphenanreicherung in multimodalen Arbeitsabläufen

Graph Enhanced Agent-based RAG (GEAR) kombiniert Graphenstrukturen und Retrievalmechanismen und ist besonders effektiv in multimodalen Arbeitsabläufen, bei denen miteinander verbundene Datenquellen entscheidend sind.

Anwendungsfall: Erstellung von Marktstudien

GEAR ist in der Lage, Texte, Bilder und Videos für Marketingkampagnen zusammenzuführen. Die Frage "Was sind die neuen Trends bei umweltfreundlichen Produkten? erzeugt einen detaillierten Bericht mit Kundenpräferenzen, Konkurrenzanalysen und Multimedia-Inhalten.

Wichtigste Vorteile:

multimodale FähigkeitIntegration von Text-, Bild- und Videodaten für eine umfassende Ausgabe.
Gesteigerte KreativitätInnovative Ideen und Lösungen für Marketing und Unterhaltung entwickeln.
Dynamische AnpassungAnpassung an sich ändernde Markttrends und Kundenbedürfnisse.

Agentenbasierte RAG-Systeme werden in einem breiten Spektrum von Anwendungen eingesetzt, was ihre Vielseitigkeit und ihr Umgestaltungspotenzial unter Beweis stellt. Von personalisiertem Kundensupport über adaptive Bildung bis hin zu graphengestützten multimodalen Workflows bewältigen diese Systeme komplexe, dynamische und wissensintensive Herausforderungen. Durch die Integration von Retrieval, generativer und Agentenintelligenz ebnen agentenbasierte RAG-Systeme den Weg für die nächste Generation von KI-Anwendungen.

6 Werkzeuge und Rahmenwerke für agentenbasierte RAG

Agentenbasierte RAG-Systeme (Retrieval-enhanced Generation) stellen eine bedeutende Entwicklung in der Kombination von Retrieval, Generierung und Agentenintelligenz dar. Diese Systeme erweitern die Fähigkeiten traditioneller RAG-Systeme durch die Integration von Entscheidungsfindung, Rekonstruktion von Abfragen und adaptiven Arbeitsabläufen. Die folgenden Tools und Frameworks bieten eine leistungsstarke Unterstützung für die Entwicklung von agentenbasierten RAG-Systemen, die den komplexen Anforderungen von realen Anwendungen gerecht werden.

Wichtige Instrumente und Rahmenwerke:

LangChain und LangGraphLangChain [43] bietet modulare Komponenten für den Aufbau von RAG-Pipelines, die nahtlos Retriever, Generatoren und externe Tools integrieren. LangGraph ergänzt dies durch die Einführung von graphbasierten Prozessen, die Schleifen, Zustandspersistenz und Mensch-Computer-Interaktionen unterstützen und damit ausgefeilte Orchestrierung und selbstkorrigierende Mechanismen in Agentensystemen ermöglichen.
LlamaIndexAgent-based Document Workflow (ADW) von LlamaIndex [44] ermöglicht eine durchgängige Automatisierung der Dokumentenverarbeitung, des Abrufs und der strukturierten Argumentation. Es führt eine Meta-Agenten-Architektur ein, bei der Sub-Agenten kleinere Mengen von Dokumenten verwalten und Aufgaben wie die Analyse der Konformität und das kontextuelle Verständnis durch Top-Level-Agenten koordiniert werden.
Umarmende Gesichts-Transformatoren und QdrantHugging Face [45] bietet vortrainierte Modelle für Einbettungs- und generative Aufgaben, während Qdrant [46] den Retrieval-Workflow durch adaptive Vektorsuchfunktionen erweitert, die es den Agenten ermöglichen, die Leistung durch dynamisches Umschalten zwischen spärlichen und dichten Vektormethoden zu optimieren.
CrewAI und AutoGenCrewAI [47] unterstützt hierarchische und sequentielle Prozesse, leistungsfähige Speichersysteme und Tool-Integration. ag2 [48] (früher bekannt als AutoGen [49, 50]) zeichnet sich durch Multi-Agenten-Kollaboration mit fortschrittlicher Codegenerierung, Tool-Ausführung und Entscheidungsunterstützung aus.
OpenAI Swarm Framework: ein pädagogischer Rahmen, der eine ergonomische, leichtgewichtige Multi-Agenten-Orchestrierung ermöglicht [51], wobei der Schwerpunkt auf der Autonomie der Agenten und der strukturierten Zusammenarbeit liegt.
Agentenbasierte RAG mit Vertex AIVertex AI [52], entwickelt von Google, lässt sich nahtlos in die agentenbasierte Retrieval Augmentation Generation (RAG) integrieren, um eine Plattform für den Aufbau, den Einsatz und die Skalierung von Machine-Learning-Modellen zu bieten und gleichzeitig fortschrittliche KI-Funktionen für leistungsstarke, kontextbezogene Such- und Entscheidungsworkflows zu nutzen.
Amazon Bedrock für agentenbasierte RAGsAmazon Bedrock [38] bietet eine leistungsstarke Plattform für die Implementierung von agentenbasierten Retrieval-enhanced Generation (RAG) Workflows.
IBM Watson und agentenbasierte RAGsIBM's watsonx.ai [53] unterstützt den Aufbau von agentenbasierten RAG-Systemen, z.B. unter Verwendung des Granite-3-8B-Instruct-Modells zur Beantwortung komplexer Anfragen und zur Verbesserung der Antwortgenauigkeit durch Integration externer Informationen.
Neo4j und VektordatenbankenNeo4j, eine bekannte Open-Source-Graphdatenbank, zeichnet sich durch die Bearbeitung komplexer relationaler und semantischer Abfragen aus. Neben Neo4j bieten Vektordatenbanken wie Weaviate, Pinecone, Milvus und Qdrant effiziente Funktionen für die Ähnlichkeitssuche und das Retrieval und bilden das Rückgrat eines leistungsstarken agentenbasierten Retrieval Augmentation Generation (RAG)-Workflows.

7 Benchmarks und Datensätze

Aktuelle Benchmarks und Datensätze liefern wertvolle Erkenntnisse für die Bewertung von Retrieval Augmented Generation (RAG)-Systemen, einschließlich solcher mit agentenbasierter und Graph-Augmentation. Während einige speziell für RAG entwickelt wurden, wurden andere angepasst, um Abfrage-, Inferenz- und Generierungsfähigkeiten in einer Vielzahl von Szenarien zu testen. Die Datensätze sind entscheidend für das Testen der Abfrage-, Inferenz- und Generierungskomponenten des RAG-Systems. In Tabelle 3 werden einige Schlüsseldatensätze für die RAG-Evaluierung auf der Grundlage von nachgelagerten Aufgaben diskutiert.

Benchmarks spielen eine Schlüsselrolle bei der Standardisierung der Bewertung von RAG-Systemen, indem sie strukturierte Aufgaben und Indikatoren liefern. Die folgenden Benchmarks sind besonders relevant:

BEIR (Benchmarking für Information Retrieval): ein vielseitiger Benchmark zur Bewertung der Leistung von eingebetteten Modellen bei einer Vielzahl von Information Retrieval-Aufgaben, der 17 Datensätze aus den Bereichen Bioinformatik, Finanzen und Q&A umfasst [54].
MS MARCO (Microsoft Machine Reading Comprehension)Dieser Benchmark, der sich auf Absatz-Ranking und Q&A konzentriert, wird häufig für intensive Retrievalaufgaben in RAG-Systemen verwendet [55].
TREC (Text Retrieval Konferenz, Deep Learning Track)Bereitstellung von Datensätzen für die Absatz- und Dokumentensuche, wobei die Qualität von Ranking-Modellen in der Suchpipeline hervorgehoben wird [56].
MuSiQue (sequenzielle Mehrpunktbefragung): ein Benchmark für Multi-Hop-Reasoning über mehrere Dokumente, der die Bedeutung des Abrufs und der Synthese von Informationen aus diskreten Kontexten betont [57].
2WikiMultihopQAEin Datensatz, der für eine Multi-Hop-QA-Aufgabe über zwei Wikipedia-Artikel entwickelt wurde und sich auf die Fähigkeit konzentriert, Wissen aus verschiedenen Quellen zu verbinden [58].
AgentG (Agentenbasierte RAG für Wissensfusion)Benchmarks, die speziell auf agentenbasierte RAG-Aufgaben zugeschnitten sind und die dynamische Informationssynthese über mehrere Wissensbasen bewerten [8].
HotpotQA: ein Multi-Hop-QA-Benchmark, der Abfragen und Schlussfolgerungen in zusammenhängenden Kontexten erfordert und sich für die Bewertung komplexer RAG-Workflows eignet [59].
RAGBenchEin groß angelegter, interpretierbarer Benchmark mit 100.000 Beispielen aus verschiedenen Industriezweigen mit dem TRACe-Bewertungsrahmen für umsetzbare RAG-Metriken [60].
BERGEN (Benchmarking der Generierung von Abrufverbesserungen)Eine Bibliothek zum systematischen Benchmarking von RAG-Systemen mit standardisierten Experimenten [61].
FlashRAG-Werkzeugsatz: implementiert 12 RAG-Methoden und enthält 32 Benchmark-Datensätze zur Unterstützung einer effizienten und standardisierten RAG-Bewertung [62].
GNN-RAGDieser Benchmark bewertet die Leistung von graphbasierten RAG-Systemen bei Vorhersageaufgaben auf Knoten- und Kantenebene und konzentriert sich dabei auf die Abfragequalität und die Inferenzleistung beim Knowledge Graph Quizzing (KGQA) [63].

Tabelle 3: Nachgelagerte Aufgaben und Datensätze, die von der RAG bewertet wurden (angepasst aus [23])

Formular	Art der Mission	Datensätze und Referenzen
Fragen und Antworten (QA)	Einzelsprung QA	Natürliche Fragen (NQ) [64], TriviaQA [65], SQuAD [66], Webfragen (WebQ) [67], PopQA [68], MS MARCO [55]
	Mehrstufige QA	HotpotQA[59], 2WikiMultiHopQA[58], MuSiQue[57]
	Frage und Antwort in Langform	ELI5 [69], NarrativeQA (NQA) [70], ASQA [71], QMSum [72]
	Bereichsspezifische QA	Qasper [73], COVID-QA [74], CMB/MMCU Medical [75]
	Mehrfachauswahl QA	QUALITY [76], ARC (keine Referenz), CommonSenseQA [77]
	Abbildung QA	GraphQA[78]
Graph-basierte Q&A	Ereignistheorie Meta-Extraktion	WikiEvent[79], RAMS[80]
	Dialog in offenen Bereichen	Wizards of Wikipedia (WoW)[81]
Dialoge	Personalisierter Dialog	KBP [82], DuleMon [83]
	Aufgabenorientierter Dialog	CamRest[84]
	Personalisierte Inhalte	Amazon-Datensatz (Spielzeug, Sport, Schönheit) [85]
Empfohlene Begründungen		HellaSwag [86], CommonSenseQA [77].
gesunde Logik	CoT-Begründung	CoT Reasoning [87], CSQA [88]
der Rest	komplexe Inferenz	MMLU (kein Verweis), WikiText-103[64]
	Sprachverständnis
	Faktenüberprüfung/Validierung	FEVER [89], PubHealth [90]
Abstracts	Zusammenfassung der Strategie QA Text	StrategyQA[91]
	Textzusammenfassung	WikiASP [92], XSum [93]
Textgenerierung	lange Zusammenfassung	NarrativeQA (NQA) [70], QMSum [72]
Text-Kategorisierung	Geschichte	Biografischer Datensatz (keine Referenz), SST-2 [94]
	Allgemeine Klassifizierung der Stimmungsanalyse
Code-Suche	Programmierung Suche	VioLens [95], TREC [56], CodeSearchNet [96]
Robustheit	Robustheit des Abrufs	NoMIRACL[97]
	Sprache Modellierung Robustheit	WikiText-103[98]
Mathe	mathematische Argumentation	GSM8K[99]
maschinelle Übersetzung	Übersetzungsaufgabe	JRC-Acquis[100]

8 Schlussfolgerung

Agentenbasierte Retrieval Augmented Generation (RAG) stellt einen transformativen Fortschritt in der künstlichen Intelligenz dar, der die Grenzen herkömmlicher RAG-Systeme durch die Integration autonomer Agenten überwindet. Durch den Einsatz von Agentenintelligenz bieten diese Systeme die Möglichkeit zur dynamischen Entscheidungsfindung, zu iterativem Denken und zu kollaborativen Arbeitsabläufen, wodurch sie komplexe Aufgaben in der realen Welt mit größerer Genauigkeit und Anpassungsfähigkeit lösen können.

Diese Übersicht untersucht die Entwicklung von RAG-Systemen von den ersten Implementierungen bis hin zu fortgeschrittenen Paradigmen wie dem modularen RAG und hebt die Beiträge und Grenzen jedes Paradigmas hervor. Die Integration von Agenten in RAG-Prozesse ist zu einer Schlüsselentwicklung geworden, die zur Entstehung von agentenbasierten RAG-Systemen geführt hat, die statische Arbeitsabläufe und begrenzte kontextuelle Anpassungsfähigkeit überwinden. Anwendungen im Gesundheitswesen, im Finanzwesen, im Bildungswesen und in der Kreativwirtschaft zeigen das transformative Potenzial dieser Systeme und demonstrieren ihre Fähigkeit, personalisierte, Echtzeit- und kontextbewusste Lösungen zu liefern.

Trotz ihrer vielversprechenden Eigenschaften stehen agentenbasierte RAG-Systeme vor Herausforderungen, die weitere Forschung und Innovation erfordern. Die Komplexität der Koordination, die Skalierbarkeit und die Latenzzeiten in Multi-Agenten-Architekturen sowie ethische Überlegungen müssen angegangen werden, um einen robusten und verantwortungsvollen Einsatz zu gewährleisten. Darüber hinaus stellt das Fehlen von Benchmarks und Datensätzen zur Bewertung der Fähigkeiten von Agenten ein erhebliches Hindernis dar. Die Entwicklung von Evaluierungsmethoden zur Erfassung einzigartiger Aspekte agentenbasierter RAG, wie z.B. die Zusammenarbeit mehrerer Agenten und die dynamische Anpassungsfähigkeit, ist entscheidend für den Fortschritt in diesem Bereich.

Mit Blick auf die Zukunft hat die Konvergenz von Retrieval-gestützter Generierung und Agentenintelligenz das Potenzial, die Rolle der KI in dynamischen und komplexen Umgebungen neu zu definieren. Durch die Bewältigung dieser Herausforderungen und die Erkundung zukünftiger Richtungen können Forscher und Praktiker das volle Potenzial agentenbasierter RAG-Systeme erschließen und den Weg für transformative Anwendungen in allen Branchen und Bereichen ebnen. Während sich KI-Systeme weiter entwickeln, dient agentenbasiertes RAG als Eckpfeiler für die Entwicklung adaptiver, kontextbewusster und wirkungsvoller Lösungen, die den Anforderungen einer sich schnell verändernden Welt gerecht werden.

bibliographie

[1] Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher, Xavier Amatriain, and
Jianfeng Gao. Large language models: A survey, 2024.
[2] Aditi Singh. Exploring language models: A comprehensive survey and analysis. In 2023 International Conference on Research Methodologies in Knowledge Management, Artificial Intelligence and Telecommunication
Engineering (RMKMATE), Seiten 1-4, 2023.
[3] Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang,
Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren,
Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie, and Ji-Rong Wen. A survey of large language
models, 2024.
[4] Sumit Kumar Dam, Choong Seon Hong, Yu Qiao, and Chaoning Zhang. A complete survey on llm-based ai
chatbots, 2024.
[5] Aditi Singh. A survey of ai text-to-image and ai text-to-video generators. In 2023 4th International Conference
on Artificial Intelligence, Robotics and Control (AIRC), Seiten 32-36, 2023.
[6] Aditi Singh, Abul Ehtesham, Gaurav Kumar Gupta, Nikhil Kumar Chatta, Saket Kumar, and Tala Talaei Khoei.
Exploring prompt engineering: A systematic review with swot analysis, 2024.
[7] Lei Huang, Weijiang Yu, Weitao Ma, Weihong Zhong, Zhangyin Feng, Haotian Wang, Qianglong Chen, Weihua
Peng, Xiaocheng Feng, Bing Qin, and Ting Liu. A survey on hallucination in large language models: Principles,
taxonomy, challenges, and open questions. ACM Transactions on Information Systems, November 2024.
[8] Meng-Chieh Lee, Qi Zhu, Costas Mavromatis, Zhen Han, Soji Adeshina, Vassilis N. Ioannidis, Huzefa Rangwala,
and Christos Faloutsos. Agent-g: An agentic framework for graph retrieval augmented generation, 2024.
[9] Penghao Zhao, Hailin Zhang, Qinhan Yu, Zhengren Wang, Yunteng Geng, Fangcheng Fu, Ling Yang, Wentao
Zhang, Jie Jiang, and Bin Cui. Retrieval-augmented generation for ai-generated content: A survey, 2024.
[10] Zhengbao Jiang, Frank F. Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan,
and Graham Neubig. Active retrieval augmented generation, 2023.
[11] Yikun Han, Chunjiang Liu, and Pengfei Wang. A comprehensive survey on vector database: Storage and retrieval
technique, challenge, 2023.
[12] Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang,
Xu Chen, Yankai Lin, Wayne Xin Zhao, Zhewei Wei, and Jirong Wen. A survey on large language model based
autonomous agents. Frontiers of Computer Science, 18(6), March 2024.
[13] Aditi Singh, Saket Kumar, Abul Ehtesham, Tala Talaei Khoei, and Deepshikha Bhati. large language modeldriven immersive agent. in 2024 IEEE World AI IoT Congress (AIIoT), Seiten 0619-0624, 2024.
[14] Matthew Renze and Erhan Guven. Self-reflection in llm agents: Effects on problem-solving performance, 2024.
[15] Xu Huang, Weiwen Liu, Xiaolong Chen, Xingmei Wang, Hao Wang, Defu Lian, Yasheng Wang, Ruiming Tang,
and Enhong Chen. Understanding the planning of llm agents: A survey, 2024.
[16] Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei, Nitesh V. Chawla, Olaf Wiest, and
Xiangliang Zhang. Large language model based multi-agents: A survey of progress and challenges, 2024.
[17] Chidaksh Ravuru, Sagar Srinivas Sakhinana, and Venkataramana Runkana. Agentic retrieval-augmented
generation for time series analysis, 2024.
[18] Jie Huang and Kevin Chen-Chuan Chang. Towards reasoning in large language models: A survey, 2023.
[19] Boci Peng, Yun Zhu, Yongchao Liu, Xiaohe Bo, Haizhou Shi, Chuntao Hong, Yan Zhang, and Siliang Tang.
Graph retrieval-augmented generation: A survey, 2024.
[20] Aditi Singh, Abul Ehtesham, Saifuddin Mahmud, and Jong-Hoon Kim. Revolutionizing mental health care
through langchain: A journey with a large language model. In 2024 IEEE 14th Annual Computing and
Communication Workshop and Conference (CCWC), Seiten 0073-0078, 2024.
[21] Gaurav Kumar Gupta, Aditi Singh, Sijo Valayakkad Manikandan, and Abul Ehtesham. Digital diagnostics: The
potential of large language models in recognizing symptoms of common illnesses, 2024.
[22] Aditi Singh, Abul Ehtesham, Saket Kumar, Gaurav Kumar Gupta, and Tala Talaei Khoei. Encouraging responsible
use of generative ai in education: A reward-based learning approach. In Tim Schlippe, Eric C. K. Cheng, and
Tianchong Wang, editors, Artificial Intelligence in Education Technologies: New Development and Innovative
Praktiken, Seiten 404-413, Singapur, 2025, Springer Nature Singapore.
[23] Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Meng Wang, and
Haofen Wang. Retrieval-augmented generation for large language models: A survey, 2024.
[24] Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, und Wen ˘
tau Yih. Dense passage retrieval for open-domain question answering, 2020.
[25] Zeyu Zhang, Xiaohe Bo, Chen Ma, Rui Li, Xu Chen, Quanyu Dai, Jieming Zhu, Zhenhua Dong, and Ji-Rong
Wen. A survey on the memory mechanism of large language model based agents, 2024.
[26] Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, and Weizhu Chen. Critic: Large
language models can self-correct with tool-interactive critiquing, 2024.
[27] Aditi Singh, Abul Ehtesham, Saket Kumar, and Tala Talaei Khoei. Enhancing ai systems with agentic workflows
Muster in großen Sprachmodellen. 2024 IEEE World AI IoT Congress (AIIoT), Seiten 527-532, 2024.
[28] DeepLearning.AI. How agents can improve llm performance. https://www.deeplearning.ai/the-batch/
how-agents-can-improve-llm-performance/?ref=dl-staging-website.ghost.io, 2024. Accessed: 2025-01-13.
[29] Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha
Dziri, Shrimai Prabhumoye, Yiming Yang, Shashank Gupta, Bodhisattwa Prasad Majumder, Katherine Hermann,
Sean Welleck, Amir Yazdanbakhsh, and Peter Clark. Self-refine: Iterative refinement with self-feedback, 2023.
[30] Noah Shinn, Federico Cassano, Edward Berman, Ashwin Gopinath, Karthik Narasimhan, and Shunyu Yao.
Reflexion: Language agents with verbal reinforcement learning, 2023.
[31] Weaviate Blog. What is agentic rag? https://weaviate.io/blog/what-is-agentic-rag#:~:text=is%
20Agentic%20RAG%3F-,%E2%80%8B,of%20the%20non%2Dagentic%20pipeline. Accessed: 2025-01-14.
[32] Shi-Qi Yan, Jia-Chen Gu, Yun Zhu, and Zhen-Hua Ling. Corrective retrieval augmented generation, 2024.
[33] LangGraph CRAG Tutorial. Langgraph crag: Contextualized retrieval-augmented generation tutorial. https:
//langchain-ai.github.io/langgraph/tutorials/rag/langgraph_crag/. Accessed: 2025-01-14.
[34] Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, and Jong C. Park. Adaptive-rag: Learning to adapt
retrieval-augmented large language models through question complexity, 2024.
[35] LangGraph Adaptive RAG Tutorial. Langgraph adaptive rag: Adaptive retrieval-augmented generation tutorial. https://langchain-ai.github.io/langgraph/tutorials/rag/langgraph_adaptive_rag/.
Accessed: 2025-01-14.
[36] Zhili Shen, Chenxin Diao, Pavlos Vougiouklis, Pascual Merita, Shriram Piramanayagam, Damien Graux, Dandan
Tu, Zeren Jiang, Ruofei Lai, Yang Ren, and Jeff Z. Pan. Gear: Graph-enhanced agent for retrieval-augmented
generation, 2024.
[37] LlamaIndex. Introducing agentic document workflows. https://www.llamaindex.ai/blog/
introducing-agentic-document-workflows, 2025. Accessed: 2025-01-13.
[38] AWS Machine Learning Blog. How twitch used agentic workflow with rag on amazon
bedrock to supercharge ad sales. https://aws.amazon.com/blogs/machine-learning/
how-twitch-used-agentic-workflow-with-rag-on-amazon-bedrock-to-supercharge-ad-sales/,
2025. Accessed: 2025-01-13.
[39] LlamaCloud Demo Repository. Patient case summary workflow using llamacloud. https:
//github.com/run-llama/llamacloud-demo/blob/main/examples/document_workflows/
patient_case_summary/patient_case_summary.ipynb, 2025. Accessed: 2025-01-13.
[40] LlamaCloud Demo Repository. Contract review workflow using llamacloud. https://github.com/
run-llama/llamacloud-demo/blob/main/examples/document_workflows/contract_review/
contract_review.ipynb, 2025. Accessed: 2025-01-13.
[41] LlamaCloud Demo Repository. Auto insurance claims workflow using llamacloud. https:
//github.com/run-llama/llamacloud-demo/blob/main/examples/document_workflows/auto_
insurance_claims/auto_insurance_claims.ipynb, 2025. Accessed: 2025-01-13.
[42] LlamaCloud Demo Repository. Research paper report generation workflow using llamacloud.
https://github.com/run-llama/llamacloud-demo/blob/main/examples/report_generation/
research_paper_report_generation.ipynb, 2025. Accessed: 2025-01-13.
[43] LangGraph Agentic RAG Tutorial. Langgraph agentic rag: Nodes and edges tutorial. https://langchain-ai.
github.io/langgraph/tutorials/rag/langgraph_agentic_rag/#nodes-and-edges. Accessed:
2025-01-14.
[44] LlamaIndex Blog. Agentic rag with llamaindex. https://www.llamaindex.ai/blog/
agentic-rag-with-llamaindex-2721b8a49ff6. Accessed: 2025-01-14.
[45] Hugging Face Cookbook. Agentic rag: Turbocharge your retrieval-augmented generation with query reformulation and self-query. https://huggingface.co/learn/cookbook/en/agent_rag. Accessed: 2025-01-14.
[46] Qdrant Blog. Agentic rag: Combining rag with agents for enhanced information retrieval. https://qdrant.
tech/articles/agentic-rag/. Accessed: 2025-01-14.
[47] crewAI Inc. crewai: A github repository for ai projects. https://github.com/crewAIInc/crewAI, 2025.
Accessed: 2025-01-15.
[48] AG2AI Contributors. Ag2: A github repository for advanced generative ai research. https://github.com/
ag2ai/ag2, 2025. Accessed: 2025-01-15.
[49] Qingyun Wu, Gagan Bansal, Jieyu Zhang, Yiran Wu, Beibin Li, Erkang Zhu, Li Jiang, Xiaoyun Zhang, Shaokun
Zhang, Jiale Liu, Ahmed Hassan Awadallah, Ryen W White, Doug Burger, and Chi Wang. Autogen: Enabling
next-gen llm applications via multi-agent conversation framework. 2023.
[50] Shaokun Zhang, Jieyu Zhang, Jiale Liu, Linxin Song, Chi Wang, Ranjay Krishna, and Qingyun Wu. Training
Sprachmodell-Agenten ohne Änderung der Sprachmodelle. ICML'24, 2024.
[51] OpenAI. Swarm: Lightweight multi-agent orchestration framework. https://github.com/openai/swarm.
Accessed: 2025-01-14.
[52] LlamaIndex Documentation. Agentic rag using vertex ai. https://docs.llamaindex.ai/en/stable/
examples/agent/agentic_rag_using_vertex_ai/. Accessed: 2025-01-14.
[53] IBM Granite Community. Agentic rag: Ai agents with ibm granite models. https://github.com/
ibm-granite-community/granite-snack-cookbook/blob/main/recipes/AI-Agents/Agentic_
RAG.ipynb. Accessed: 2025-01-14.
[54] Nandan Thakur, Nils Reimers, Andreas Rücklé, Abhishek Srivastava und Iryna Gurevych: Beir: A heterogenous
benchmark for zero-shot evaluation of information retrieval models, 2021.
[55] Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew
McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, and Tong
Wang. Ms marco: A human generated machine reading comprehension dataset, 2018.
[56] Nick Craswell, Bhaskar Mitra, Emine Yilmaz, Daniel Campos, Jimmy Lin, Ellen M. Voorhees, and Ian Soboroff.
Overview of the trec 2022 deep learning track. In Text REtrieval Conference (TREC). NIST, TREC, March 2023.
[57] Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, and Ashish Sabharwal. Musique: Multihop questions
via single-hop question composition, 2022.
[58] Xanh Ho, Anh-Khoa Duong Nguyen, Saku Sugawara, and Akiko Aizawa. Constructing a multi-hop qa dataset
for comprehensive evaluation of reasoning steps, 2020.
[59] Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W. Cohen, Ruslan Salakhutdinov, and Christopher D. Manning. Hotpotqa: A dataset for diverse, explainable multi-hop question answering, 2018.
[60] Robert Friel, Masha Belyi, and Atindriyo Sanyal. Ragbench: Explainable benchmark for retrieval-augmented
generation systems, 2024.
[61] David Rau, Hervé Déjean, Nadezhda Chirkova, Thibault Formal, Shuai Wang, Vassilina Nikoulina, und Stéphane
Clinchant. Bergen: A benchmarking library for retrieval-augmented generation, 2024.
[62] Jiajie Jin, Yutao Zhu, Xinyu Yang, Chenghao Zhang, and Zhicheng Dou. Flashrag: A modular toolkit for efficient
retrieval-augmented generation research, 2024.
[63] Costas Mavromatis and George Karypis. Gnn-rag: Graph neural retrieval for large language model reasoning,
2024.
[64] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle
Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, Kristina Toutanova, Llion Jones, Matthew Kelcey, Ming-Wei
Chang, Andrew M. Dai, Jakob Uszkoreit, Quoc Le, and Slav Petrov. Natural questions: A benchmark for question
Transactions of the Association for Computational Linguistics, 7:452-466, 2019.
[65] Mandar Joshi, Eunsol Choi, Daniel S. Weld, and Luke Zettlemoyer. Triviaqa: A large scale distantly supervised
challenge dataset for reading comprehension, 2017.
[66] Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Squad: 100,000+ questions for machine
comprehension of text, 2016.
[67] Jonathan Berant, Andrew K. Chou, Roy Frostig, and Percy Liang. Semantic parsing on freebase from questionanswer pairs. In Conference on Empirical Methods in Natural Language Processing, 2013.
[68] Alex Mallen, Akari Asai, Victor Zhong, Rajarshi Das, Daniel Khashabi, and Hannaneh Hajishirzi. When not to
trust language models: Investigating effectiveness of parametric and non-parametric memories. In Anna Rogers,
Jordan Boyd-Graber, and Naoaki Okazaki, editors, Proceedings of the 61st Annual Meeting of the Association for
Computational Linguistics (Volume 1: Long Papers), Seiten 9802-9822, Toronto, Kanada, Juli 2023.
for Computational Linguistics.
[69] Angela Fan, Yacine Jernite, Ethan Perez, David Grangier, Jason Weston, and Michael Auli. Eli5: Long form
question answering, 2019.
[70] Tomáš Kociský, Jonathan Schwarz, Phil Blunsom, Chris Dyer, Karl Moritz Hermann, Gábor Melis und Edward ˇ
Grefenstette. The narrativeqa reading comprehension challenge. 2017.
[71] Ivan Stelmakh, Yi Luan, Bhuwan Dhingra, and Ming-Wei Chang. Asqa: Factoid questions meet long-form
answers, 2023.
[72] Ming Zhong, Da Yin, Tao Yu, Ahmad Zaidi, Mutethia Mutuma, Rahul Jha, Ahmed Hassan Awadallah, Asli
Celikyilmaz, Yang Liu, Xipeng Qiu, and Dragomir Radev. QMSum: A new benchmark for query-based
Multidomain-Meeting-Zusammenfassung. Seiten 5905-5921, Juni 2021.
[73] Pradeep Dasigi, Kyle Lo, Iz Beltagy, Arman Cohan, Noah A. Smith, and Matt Gardner. A dataset of informationseeking questions and answers anchored in research papers. In Kristina Toutanova, Anna Rumshisky, Luke
Zettlemoyer, Dilek Hakkani-Tur, Iz Beltagy, Steven Bethard, Ryan Cotterell, Tanmoy Chakraborty, and Yichao
Zhou, editors, Proceedings of the 2021 Conference of the North American Chapter of the Association for
Computerlinguistik: Technologien der menschlichen Sprache, Seiten 4599-4610, Online, Juni 2021.
for Computational Linguistics.
[74] Timo Möller, Anthony Reina, Raghavan Jayakumar und Malte Pietsch: COVID-QA: Ein Fragenbeantworter
dataset for COVID-19. In ACL 2020 Workshop on Natural Language Processing for COVID-19 (NLP-COVID),
2020.
[75] Xidong Wang, Guiming Hardy Chen, Dingjie Song, Zhiyi Zhang, Zhihong Chen, Qingying Xiao, Feng Jiang,
Jianquan Li, Xiang Wan, Benyou Wang, and Haizhou Li. Cmb: A comprehensive medical benchmark in chinese,
2024.
[76] Richard Yuanzhe Pang, Alicia Parrish, Nitish Joshi, Nikita Nangia, Jason Phang, Angelica Chen, Vishakh
Padmakumar, Johnny Ma, Jana Thompson, He He, and Samuel R. Bowman. Quality: Question answering with
long input texts, yes!, 2022.
[77] Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. CommonsenseQA: A question answering
challenge targeting commonsense knowledge. In Jill Burstein, Christy Doran, and Thamar Solorio, editors,
Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational
Linguistics: Human Language Technologies, Band 1 (Long and Short Papers), Seiten 4149-4158, Minneapolis, Vereinigte Staaten.
Minnesota, June 2019. Association for Computational Linguistics.
[78] Xiaoxin He, Yijun Tian, Yifei Sun, Nitesh V. Chawla, Thomas Laurent, Yann LeCun, Xavier Bresson, and Bryan
Hooi. G-retriever: Retrieval-augmented generation for textual graph understanding and question answering,
2024.
[79] Sha Li, Heng Ji, and Jiawei Han. Document-level event argument extraction by conditional generation, 2021.
[80] Seth Ebner, Patrick Xia, Ryan Culkin, Kyle Rawlins, and Benjamin Van Durme. Multi-sentence argument
linking, 2020.
[81] Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, and Jason Weston. Wizard of wikipedia:
Knowledge-powered conversational agents, 2019.
[82] Hongru Wang, Minda Hu, Yang Deng, Rui Wang, Fei Mi, Weichao Wang, Yasheng Wang, Wai-Chung Kwan,
Irwin King, and Kam-Fai Wong. Large language models as source planner for personalized knowledge-grounded
dialogue, 2023.
[83] Xinchao Xu, Zhibin Gou, Wenquan Wu, Zheng-Yu Niu, Hua Wu, Haifeng Wang, and Shihang Wang. Long time
no see! open-domain conversation with long-term persona memory, 2022.
[84] Tsung-Hsien Wen, Milica Gašic, Nikola Mrkši' c, Lina M. Rojas-Barahona, Pei-Hao Su, Stefan Ultes, David '
Vandyke, and Steve Young. Conditional generation and snapshot learning in neural dialogue systems. In
Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 2153-2162, , in Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing.
Austin, Texas, November 2016. Association for Computational Linguistics.
[85] Ruining He and Julian McAuley. Ups and downs: Modeling the visual evolution of fashion trends with one-class
In Proceedings of the 25th International Conference on World Wide Web, WWW '16, Seite
507-517, Republik und Kanton Genf, CHE, 2016. International World Wide Web Conferences Steering
Committee.
[86] Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. HellaSwag: Can a machine really
In Anna Korhonen, David Traum, and Lluís Màrquez, editors, Proceedings of the 57th session of the Commission on Human Rights.
Annual Meeting of the Association for Computational Linguistics, Seiten 4791-4800, Florenz, Italien, Juli 2019.
Association for Computational Linguistics.
[87] Seungone Kim, Se June Joo, Doyoung Kim, Joel Jang, Seonghyeon Ye, Jamin Shin, and Minjoon Seo. The
cot collection: Improving zero-shot and few-shot learning of language models via chain-of-thought fine-tuning,
2023.
[88] Amrita Saha, Vardaan Pahuja, Mitesh M. Khapra, Karthik Sankaranarayanan, and Sarath Chandar. Complex
sequential question answering: Towards learning to converse over linked question answer pairs with a knowledge
graph. 2018.
[89] James Thorne, Andreas Vlachos, Christos Christodoulopoulos, and Arpit Mittal. FEVER: a large-scale dataset for
fact extraction and VERification. In Marilyn Walker, Heng Ji, and Amanda Stent, editors, Proceedings of the 2018
Conference of the North American Chapter of the Association for Computational Linguistics: Human Language
Technologies, Band 1 (Long Papers), Seiten 809-819, New Orleans, Louisiana, Juni 2018. association for
Computational Linguistics.
[90] Neema Kotonya and Francesca Toni. Explainable automated fact-checking for public health claims, 2020.
[91] Mor Geva, Daniel Khashabi, Elad Segal, Tushar Khot, Dan Roth, and Jonathan Berant. Did aristotle use a laptop?
a question answering benchmark with implicit reasoning strategies, 2021.
[92] Hiroaki Hayashi, Prashant Budania, Peng Wang, Chris Ackerson, Raj Neervannan, and Graham Neubig. Wikiasp:
A dataset for multi-domain aspect-based summarization, 2020.
[93] Shashi Narayan, Shay B. Cohen und Mirella Lapata: Keine Details, nur eine Zusammenfassung! topic-aware
convolutional neural networks for extreme summarization, 2018.
[94] Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Ng, and Christopher
Potts. Recursive deep models for semantic compositionality over a sentiment treebank. In David Yarowsky,
Timothy Baldwin, Anna Korhonen, Karen Livescu, and Steven Bethard, editors, Proceedings of the 2013
Conference on Empirical Methods in Natural Language Processing, Seiten 1631-1642, Seattle, Washington.
USA, October 2013. Association for Computational Linguistics.
[95] Sourav Saha, Jahedul Alam Junaed, Maryam Saleki, Arnab Sen Sharma, Mohammad Rashidujjaman Rifat,
Mohamed Rahouti, Syed Ishtiaque Ahmed, Nabeel Mohammed, and Mohammad Ruhul Amin. Vio-lens: A novel
dataset of annotated social network posts leading to different forms of communal violence and its evaluation. In
Firoj Alam, Sudipta Kar, Shammur Absar Chowdhury, Farig Sadeque, and Ruhul Amin, editors, Proceedings
of the First Workshop on Bangla Language Processing (BLP-2023), Seiten 72-84, Singapur, Dezember 2023.
Association for Computational Linguistics.
[96] Hamel Husain, Ho-Hsiang Wu, Tiferet Gazit, Miltiadis Allamanis, and Marc Brockschmidt. Codesearchnet
challenge: Evaluating the state of semantic code search, 2020.
[97] Nandan Thakur, Luiz Bonifacio, Xinyu Zhang, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo,
Xiaoguang Li, Qun Liu, Boxing Chen, Mehdi Rezagholizadeh und Jimmy Lin: "Wissen, wenn man es nicht weiß".
A multilingual relevance assessment dataset for robust retrieval-augmented generation, 2024.
[98] Stephen Merity, Caiming Xiong, James Bradbury, and Richard Socher. Pointer sentinel mixture models, 2016.
[99] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert,
Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to
solve math word problems, 2021.
[100] Ralf Steinberger, Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufi¸s, und Dániel Varga.
The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. In Nicoletta Calzolari, Khalid
Choukri, Aldo Gangemi, Bente Maegaard, Joseph Mariani, Jan Odijk, and Daniel Tapias, editors, Proceedings of
die Fünfte Internationale Konferenz über Sprachressourcen und Evaluation (LREC'06), Genua, Italien, Mai 2006.
European Language Resources Association (ELRA).

KI-Produktivitätswerkzeuge » Intelligent Agentic Retrieval Enhanced Generation: ein Überblick über die Agentic RAG-Technologie Veröffentlicht am 2025-01-31. Wenn Sie feststellen, dass die URL veraltet oder unzugänglich ist, kontaktieren Sie uns bitte.

0Lesezeichen

0Gelobt

Intelligent Agentic Retrieval Enhanced Generation: ein Überblick über die Agentic RAG-Technologie

Abstracts

1 Einleitung

2 Grundlage für die Generierung von Retrieval-Erweiterungen

2.1 Überblick über die Retrieval Augmented Generation (RAG)

2.2 Kernbestandteile der RAG

2.3 Entwicklung des RAG-Paradigmas

2.3.1 Einfache RAG

2.3.2 Erweiterte RAG

2.3.3 Modulare RAG

2.3.4 Abbildung RAG

2.3.5 Stellvertretende RAG

2.4 Herausforderungen und Grenzen der traditionellen RAG-Systeme

2.4.1 Kontextbezogene Integration

2.4.2 Mehrstufige Argumentation

2.4.3 Skalierbarkeit und Latenzprobleme

2.5 Agentenbasierte RAG: ein Paradigmenwechsel

3 Grundprinzipien und Kontext der Agentenintelligenz

3.1 Proxy-Modell

3.1.1 Reflexion

3.1.2 Planung

3.1.3 Einsatz von Werkzeugen

3.1.4 Multi-Agent

4 Klassifizierung von agentenbasierten RAG-Systemen

4.1 Alleinvertretungsberechtigter Proxy RAG: Router

Arbeitsablauf

Hauptmerkmale und Vorteile

Anwendungsfälle: Kundensupport

4.2 Multi-Agenten-RAG-System

Arbeitsablauf

Hauptmerkmale und Vorteile

Herausforderung

Anwendungsfall: Multidisziplinärer Forschungsassistent

4.3 Hierarchisches agentenbasiertes RAG-System

Arbeitsablauf

Hauptmerkmale und Vorteile

Herausforderung

Anwendungsfall: Finanzanalysesystem

4.4 Stellvertretende RAG-Korrekturen

Hauptmerkmale und Vorteile:

4.5 Adaptive agentenbasierte RAG

4.6 Graphenbasierte agentenbasierte RAGs

4.6.1 Agent-G: Ein agentenbasierter Rahmen für Graphen-RAGs

4.6.2 GeAR: Graph Augmentation Agent for Retrieval Augmentation Generation

4.7 Agentenbasierte Dokumenten-Workflows in agentenbasierten RAGs

Anwendungsfall: Workflow für die Rechnungszahlung

Hauptmerkmale und Vorteile

4.8 Vergleichende Analyse von agentenbasierten RAG-Rahmenwerken

5 Anwendung der stellvertretenden RAG

5.1 Kundenbetreuung und virtuelle Assistenten

Anwendungsfall: Verbesserung des Anzeigenverkaufs auf Twitch [38]

Wichtigste Vorteile:

5.2 Medizinische Behandlung und personalisierte Medizin

Anwendungsfälle: Zusammenfassung von Patientenfällen [39]

Wichtigste Vorteile:

5.3 Rechtliche und vertragliche Analyse

Anwendungsfälle: Vertragsprüfung [40]

Wichtigste Vorteile:

5.4 Finanz- und Risikoanalyse

Anwendungsfälle: Bearbeitung von Kfz-Versicherungsansprüchen [41]

Wichtigste Vorteile:

5.5 Bildung

Anwendungsfälle: Erstellung von Forschungspapieren [42]

Wichtigste Vorteile:

5.6 Anwendungen zur Graphenanreicherung in multimodalen Arbeitsabläufen

Anwendungsfall: Erstellung von Marktstudien

Wichtigste Vorteile:

6 Werkzeuge und Rahmenwerke für agentenbasierte RAG

Wichtige Instrumente und Rahmenwerke:

7 Benchmarks und Datensätze

8 Schlussfolgerung

bibliographie

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Auswählen → Schreiben → Veröffentlichen, vollautomatisch!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

Schnellabfragestation AI-Tool