Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang » KI-Wissen

ReAct: Reasoning und Action arbeiten in einem großen Sprachmodell zusammen

2024-04-03 3.9 K

Original: https://arxiv.org/pdf/2210.03629.pdf

Sie verstehen auch nach der Lektüre nicht, wie ReAct funktioniert und angewendet wird? Schauen Sie sich dieReAct-Implementierungslogik Hands-on" mit praktischen Beispielen.

 

Abstracts

 

Während groß angelegte Sprachmodelle (llm) beeindruckende Leistungen bei Aufgaben des Sprachverständnisses und der interaktiven Entscheidungsfindung gezeigt haben, wurden ihre Denkfähigkeiten (z. B. Hinweise auf Gedankenketten) und Handlungsfähigkeiten (z. B. die Erstellung von Handlungsplänen) weitgehend als separate Themen untersucht. In diesem Beitrag wird die Verwendung von LLL zur Generierung von Argumentationstrajektorien und aufgabenspezifischen Aktionen in einer verschachtelten Art und Weise untersucht, die eine größere Synergie zwischen den beiden ermöglicht: Argumentationstrajektorien helfen dem Modell, Aktionspläne zu verallgemeinern, zu verfolgen und zu aktualisieren sowie mit Ausnahmen umzugehen, während Aktionen es ihm ermöglichen, mit externen Quellen (z. B. Wissensdatenbanken oder Umgebungen) zu interagieren und zusätzliche Informationen zu sammeln. Die vorgeschlagene ReAct-Methode wird auf eine Reihe von Sprach- und Entscheidungsfindungsaufgaben angewandt, und ihre Effektivität wird im Vergleich zum Stand der Technik demonstriert, zusätzlich zur Verbesserung der menschlichen Interpretierbarkeit und Vertrauenswürdigkeit. Insbesondere bei der Beantwortung von Fragen (HotpotQA) und der Überprüfung von Fakten (Fever) überwindet ReAct die Probleme der Täuschung und der Fehlerfortpflanzung, die bei der Gedankenkette vorherrschen, indem es mit einer einfachen Wikipedia-API interagiert und menschenähnliche Lösungswege generiert, die leichter zu interpretieren sind als die Grundlinien ohne Entscheidungswege. Darüber hinaus übertrifft ReAct bei zwei interaktiven Entscheidungsfindungs-Benchmarks (ALFWorld und WebShop) Mimikry- und Reinforcement-Learning-Ansätze mit einer absoluten Erfolgsrate von 34% bzw. 10%, wobei nur ein oder zwei kontextbezogene Beispiele benötigt werden.

 

 

1 Einleitung

 

Ein einzigartiges Merkmal menschlicher Intelligenz ist die Fähigkeit, aufgabenorientierte Handlungen nahtlos mit verbalem Denken zu verbinden. Man geht davon aus, dass dies eine wichtige Rolle in der menschlichen Kognition spielt und zur Selbstregulierung oder Strategieformulierung sowie zur Aufrechterhaltung des Arbeitsgedächtnisses beiträgt. Nehmen wir das Beispiel des Kochens eines Gerichts in der Küche: Zwischen zwei spezifischen Handlungen können wir verbales Denken einsetzen, um den Fortschritt zu verfolgen ("Jetzt, wo alles gehackt ist, sollte ich den Topf mit Wasser erhitzen"), um mit Anomalien umzugehen oder den Plan der Situation anzupassen ("Ich habe kein Salz, dann nehme ich stattdessen Sojasauce und Pfeffer Ich habe kein Salz, dann nehme ich stattdessen Sojasauce und Pfeffer"), und zu erkennen, wann externe Informationen benötigt werden ("Wie bereite ich den Teig zu? Ich werde im Internet recherchieren"). Wir können auch aktiv werden (ein Rezeptbuch aufschlagen, um ein Rezept zu lesen, den Kühlschrank öffnen, die Zutaten überprüfen), um das Denken zu unterstützen und Fragen zu beantworten ("Was kann ich jetzt kochen?"). Diese Art des "Handelns" stellt für uns kein Problem dar. Diese enge Synergie zwischen "Handeln" und "Denken" ermöglicht es dem Menschen, neue Aufgaben schnell zu erlernen und in bisher unbekannten Umgebungen oder bei Informationsunsicherheiten robuste Entscheidungen zu treffen oder zu argumentieren.

 

Jüngste Ergebnisse deuten auf die Möglichkeit hin, verbales Denken mit interaktiver Entscheidungsfindung in autonomen Systemen zu kombinieren. Einerseits haben entsprechend geführte Large Language Models (LLMs) die Fähigkeit bewiesen, mehrere Schritte des logischen Denkens in arithmetischen, vernünftigen und symbolischen Aufgaben durchzuführen. Allerdings handelt es sich bei dieser "Denkkette" um eine statische Blackbox, bei der das Modell seine interne Repräsentation verwendet, um Gedanken zu generieren, und sich nicht auf die externe Welt stützt, was seine Fähigkeit einschränkt, reaktiv zu denken oder Wissen zu aktualisieren. Dies kann zu faktischen Illusionen und Fehlerfortpflanzung im Denkprozess führen (Abbildung 1(1b)). Andererseits haben neuere Arbeiten die Verwendung von vortrainierten Sprachmodellen für die Planung und Ausführung von Handlungen in interaktiven Umgebungen untersucht, wobei der Schwerpunkt auf der Vorhersage von Handlungen durch linguistische Prioritäten liegt. Diese Ansätze wandeln typischerweise multimodale Beobachtungen in Text um, verwenden Sprachmodelle, um domänenspezifische Aktionen oder Pläne zu generieren, und verwenden dann Controller, um diese auszuwählen oder auszuführen. Sie verwenden jedoch keine linguistischen Modelle, um abstrakt über übergeordnete Ziele nachzudenken oder das Arbeitsgedächtnis zur Unterstützung von Handlungen aufrechtzuerhalten, mit Ausnahme von Huang et al. (2022b), die eine begrenzte Form des verbalen Denkens einsetzten, um räumliche Fakten über den aktuellen Zustand zu wiederholen. Abgesehen von dieser einfachen verkörperten Aufgabe, die mit mehreren Bausteinen interagiert, wurde bisher nicht erforscht, wie logisches Denken und Handeln auf synergetische Weise kombiniert werden können, um allgemeine Aufgaben zu lösen, und ob eine solche Kombination systematische Vorteile gegenüber dem logischen Denken oder dem Handeln allein bieten kann.

 

ReAct: 大语言模型中推理和行动协同工作-1

Abbildung 1: (1) Vergleich von vier Prompting-Methoden, (a) Standard Prompting, (b) Chain of Thought (CoT, nur Reasoning), (c) nur Action und (d) ReAct (Reasoning + Action), um ein HotpotQA (Yang et al., 2018) Problem zu lösen. (2) Ein Vergleich von (a) Nur-Action- und (b) ReAct-Hinting-Ansätzen zur Lösung eines AlfWorld (Shridhar et al., 2020b) Spiels. In beiden Bereichen lassen wir kontextuelle Beispiele aus den Aufforderungen weg und zeigen nur die vom Modell (Handlung, Denken) und der Umgebung (Beobachtung) generierten Problemlösungswege.

 

dieses Papier präsentiertReActReAct fordert llm auf, aufgabenrelevante verbale Argumentationsspuren und Aktionen in einer übergreifenden Art und Weise zu generieren, die es dem Modell ermöglicht, dynamische Argumentation durchzuführen, um Handlungspläne auf hoher Ebene zu erstellen, aufrechtzuerhalten und anzupassen (schlussfolgerndes Handeln), während es gleichzeitig mit externen Umgebungen (z. B. Wikipedia) interagiert, um zusätzliche Informationen in die Argumentation einzubeziehen (schlussfolgerndes Handeln). zusätzliche Informationen in die Schlussfolgerungen einfließen zu lassen (Schlussfolgerung durch Handlung).

 

In dieser Arbeit werden ReAct und die modernsten Basismodelle in vier verschiedenen Benchmarks empirisch evaluiert: Quiz, Faktenüberprüfung, Textspiele und Webnavigation. Bei HotPotQA und Fever übertrifft ReAct gängige Modelle zur Handlungsgenerierung und konkurriert mit Chain of Thought Reasoning (CoT), indem es auf die Wikipedia-API zugreift, mit der Modelle interagieren können. Insgesamt ist der beste Ansatz eine Kombination aus ReAct und CoT, die es ermöglicht, sowohl internes Wissen als auch extern gewonnene Informationen in den Schlussfolgerungsprozess einzubeziehen. Bei ALFWorld und WebShop können zwei oder sogar ein ReAct-Prompt die Verwendung von 103 ∼ 105Methoden des Imitations- oder Verstärkungslernens, die auf Aufgabeninstanzen trainiert wurden, führten zu absoluten Steigerungen der Erfolgsquoten von 34 % bzw. 10 %. Die Bedeutung des spärlichen, verallgemeinerten Denkens bei der Entscheidungsfindung wird durch einen konsistenten Vorteil gegenüber einer kontrollierten Grundlinie, bei der nur gehandelt wird, demonstriert. Neben der allgemeinen Anwendbarkeit und den Leistungssteigerungen trägt die Kombination von Schlussfolgerungen und Handlungen zur Interpretierbarkeit, Vertrauenswürdigkeit und Diagnostizierbarkeit des Modells in allen Bereichen bei, da der Mensch leicht zwischen Informationen aus dem internen Wissen des Modells und der externen Umgebung unterscheiden und die Inferenzverläufe untersuchen kann, um die Entscheidungsgrundlagen der Handlungen des Modells zu verstehen.

 

Zusammenfassend lassen sich unsere wichtigsten Beiträge wie folgt zusammenfassen.

(1) Vorschlag von ReAct, einem neuen, auf Stichworten basierenden Paradigma für kollaboratives Denken und Handeln bei der Sprachmodellierung zur Lösung allgemeiner Aufgaben.

(2) Es wurden umfangreiche Experimente mit verschiedenen Benchmarks durchgeführt, um die Vorteile von ReAct gegenüber bisherigen Ansätzen zur Inferenz oder zur alleinigen Handlungsgenerierung in einer stichprobenlosen Lernumgebung zu demonstrieren.

(3) systematische Abtragungen und Analysen vorschlagen, um die Bedeutung von Handlungen in Denkaufgaben und von Denkaufgaben in Interaktionsaufgaben zu verstehen.

(4) Die Grenzen von ReAct im cued Setting (d.h. begrenzte Unterstützung für Inferenz und Verhalten) werden analysiert und erste Experimente zur Feinabstimmung durchgeführt, die das Potenzial für eine Verbesserung von ReAct mit zusätzlichen Trainingsdaten zeigen. Die Erweiterung von ReAct, um zusätzliche Aufgaben zu trainieren und zu bearbeiten, und die Kombination mit ergänzenden Paradigmen wie dem Verstärkungslernen könnten das Potenzial großer Sprachmodelle weiter erschließen.

 

 

2 REACT: Kollaboratives Denken und Handeln

 

Betrachten wir den allgemeinen Aufbau eines intelligenten Körpers, der mit seiner Umgebung interagiert, um eine Aufgabe zu lösen. In dem ZeitschritttEin, der Agent erhält eine Beobachtung aus der Umgebungot ∈ O, und nach einer bestimmten Strategieπ(at|ct) Nehmen Sie eine Operationat ∈ A, wobeict = (o1,a1,··· ,ot−1,at−1,ot) ist der Kontext des Agenten. Wenn die Abbildungct →7 atDas Erlernen von Strategien kann eine Herausforderung darstellen, wenn sie in hohem Maße implizit sind und eine große Menge an Berechnungen erfordern. Der in Abb. 1 (1c) gezeigte Agent ist zum Beispiel nicht in der Lage, die korrekte letzte Aktion (Akt 4) zu generieren, um die QA-Aufgabe abzuschließen, da sie komplexe Schlussfolgerungen über den Kontext der Flugbahn (Frage, Akt 1-3, Beobachtung 1-3) erfordert. In ähnlicher Weise ist der in Abb. 1 (2a) gezeigte Agent nicht in der Lage, aus dem Kontext zu verstehen, dass Spüle 1 keinen Pfefferstreuer 1 enthält, und produziert daher weiterhin halluzinatorische Verhaltensweisen.

 

Die Idee von ReAct ist einfach: Wir erweitern den Aktionsraum eines intelligenten Körpers zu Aˆ = A ∪ L, wobei L der Sprachraum ist. Eine Aktion im Sprachraumaˆt ∈ L, das wir als Gedanken- oder Argumentationsspur bezeichnen, wirkt sich nicht auf die äußere Umgebung aus und führt daher nicht zu einem Beobachtungsfeedback. Im Gegensatz dazu, ein GedankeaˆtZiel ist es, nützliche Informationen zusammenzustellen, indem man über den aktuellen Kontext nachdenktctund aktualisieren den Kontextct+1 = (ct,aˆt), um zukünftige Überlegungen oder Handlungen zu unterstützen. Wie in Abbildung 1 dargestellt, kann es verschiedene Arten von nützlichen Ideen geben, wie z. B.: Aufschlüsselung der Aufgabenziele und Erstellung eines Aktionsplans (2b, Handlung 1; 1d, Gedanke 1), Einbringen von für die Aufgabenlösung relevantem Alltagswissen (2b, Gedanke 1), Extrahieren wichtiger Teile aus Beobachtungen (1d, Gedanke 2,4), Verfolgen des Fortschritts und Transportieren des Aktionsplans (2b, Gedanke 8), Umgang mit Ausnahmen und Anpassen des Aktionsplans ( 1d, Gedanke 3), und so weiter.

 

Da der Sprachraum L jedoch unendlich ist, ist das Lernen in diesem erweiterten Aktionsraum schwierig und erfordert einen starken linguistischen Prior. In dieser Arbeit konzentrieren wir uns auf ein eingefrorenes großes Sprachmodell PaLM-540B (Chowdhery et al., 2022) in dieser Umgebung[1]Kontextuelle Beispiele mit weniger Stichproben wurden herangezogen, um domänenspezifische Handlungen und freie sprachliche Gedanken zur Aufgabenlösung zu generieren (Abb. 1 (1d), (2b)). Die Beispiele in jedem Kontext sind Trajektorien menschlicher Handlungen, Gedanken und Umweltbeobachtungen, die zur Lösung von Aufgabeninstanzen verwendet werden (siehe Anhang C). Bei Aufgaben, bei denen das Denken im Vordergrund steht (Abb. 1(1)), erzeugen wir Gedanken und Handlungen abwechselnd, so dass die Trajektorie der Aufgabenlösung aus mehreren Gedanken-Handlungs-Beobachtungs-Schritten besteht. Im Gegensatz dazu müssen bei Entscheidungsaufgaben, die eine große Anzahl von Handlungen beinhalten können (Abb. 1(2)), Gedanken nur spärlich an den relevantesten Stellen der Trajektorie erscheinen, so dass wir das Sprachmodell selbst über das asynchrone Auftreten von Gedanken und Handlungen entscheiden lassen.

 

Durch die Integration von Entscheidungs- und Schlussfolgerungsfähigkeiten in ein großes Sprachmodell verfügt ReAct über mehrere einzigartige Eigenschaften.

A) Intuitiv und einfach zu gestalten:Die Gestaltung von ReAct-Prompts ist einfach, weil menschliche Kommentatoren ihre Gedanken einfach in Worten zusätzlich zu ihren Handlungen ausdrücken. In diesem Papier werden keine spezifischen Formatwahlen, Think-Aloud-Designs oder Beispielwahlen verwendet. Wir beschreiben das Prompt-Design für jede Aufgabe im Detail in den Abschnitten 3 und 4.

B) Universell und flexibel:Aufgrund des flexiblen Denkraums und des Think-Act-Generate-Formats eignet sich ReAct für verschiedene Aufgaben mit unterschiedlichen Handlungsräumen und Argumentationsanforderungen, einschließlich, aber nicht beschränkt auf QA, Faktenüberprüfung, Textspiele und Webnavigation.

C) Leistungsstarke und robuste Leistung:ReAct zeigt eine starke Generalisierung, wenn es von nur einem bis sechs kontextuellen Beispielen lernt, und geht dabei konsequent über die Basislinie von nur Denken oder Handeln in allen Domänen hinaus. In Abschnitt 3 zeigen wir zusätzliche Vorteile bei der Feinabstimmung und in Abschnitt 4 die Robustheit der ReAct-Leistung bei der Auswahl von Stichwörtern.

D) Auf den Menschen ausgerichtet und kontrollierbar:ReAct verspricht einen interpretierbaren, sequentiellen Entscheidungs- und Argumentationsprozess, bei dem der Mensch die Argumentation und die sachliche Korrektheit leicht überprüfen kann. Darüber hinaus kann der Mensch, wie in Abbildung 5 in Abschnitt 4 gezeigt, das Verhalten des intelligenten Körpers auch durch Nachdenken über die Bearbeitung steuern oder korrigieren.

 

 

3 Wissensintensive Argumentationsaufgaben

 

Angefangen bei wissensintensiven Argumentationsaufgaben wie Multi-Hop-Quiz und Fact-Checking. Wie in Abbildung 1 (1d) zu sehen ist, kann ReAct durch Interaktion mit der Wikipedia-API Informationen abrufen, um die Argumentation zu unterstützen, und auch die Argumentation nutzen, um zu bestimmen, was als Nächstes abgerufen werden soll, was die Synergie von Argumentation und Aktion demonstriert.

 

3.1 Einstellungen

Domains Wir betrachten zwei Datensätze, die eine Herausforderung für die Wissenssuche und Inferenz darstellen: (1) HotPotQA , ein Multi-Hop-Frage-Antwort-Benchmark, der Inferenz über zwei oder mehr Wikipedia-Artikel erfordert, und (2) FEVER , ein Faktencheck-Benchmark, bei dem jede Aussage mit SUPPORTS, REFUTES oder NOT ENOUGH INFO gekennzeichnet ist, je nachdem, ob ein Wikipedia-Artikel zur Bestätigung der Aussage existiert. In dieser Arbeit verwenden wir bei beiden Aufgaben eine reine Problemstellung, bei der das Modell nur das Problem/die Aussage als Eingabe erhält und keinen Zugang zu den unterstützenden Passagen hat und sich auf sein internes Wissen verlassen oder Wissen durch Interaktion mit der externen Umgebung abrufen muss, um die Argumentation zu unterstützen.

Aktionsraum Wir haben eine einfache Wikipedia-Web-API entwickelt, die drei Arten von Operationen enthält, um die interaktive Suche nach Informationen zu unterstützen:

(1) nach etw. Ausschau halten [Entität], die die ersten 5 Sätze der entsprechenden Wiki-Seite der Entität zurückgibt, wenn sie existiert, andernfalls werden die ersten 5 ähnlichen Entitäten aus der Wikipedia-Suchmaschine vorgeschlagen.

(2) ausfindig machen. [string], was den nächsten Satz in der Seite, die die Zeichenkette enthält, zurückgibt und die Funktion Strg+F eines Browsers simuliert.

(3) erfüllen. [Antwort], schließt die aktuelle Aufgabe mit der Antwort ab. Der Aktionsraum kann meist nur einen kleinen Teil eines Absatzes auf der Grundlage des genauen Absatznamens abrufen und ist damit viel schwächer als moderne lexikalische oder neuronale Retriever. Das Ziel ist es, zu simulieren, wie Menschen mit Wikipedia interagieren, und das Modell zu zwingen, durch explizite Schlussfolgerungen in der Sprache zu recherchieren.

 

3.2 Methodik

ReAct Prompting Bei HotpotQA und Fever wurden 6 bzw. 3 Fälle zufällig aus der Trainingsmenge ausgewählt und manuell Trajektorien im ReAct-Format geschrieben, die als unterdurchschnittliche Stichproben in den Prompts verwendet wurden. Ähnlich wie in Abb. 1 (d) besteht jede Trajektorie aus mehreren Gedanken-Handlungs-Beobachtungs-Schritten (d. h. dichtes Denken), in denen frei geformte Gedanken für verschiedene Zwecke verwendet werden. Insbesondere verwenden wir eine Kombination von Gedanken, um das Problem zu zerlegen ("Ich muss nach x suchen, y finden und dann z finden"), Informationen aus Wikipedia-Beobachtungen zu extrahieren ("x begann im Jahr 1844", "der Text sagt nicht x"), gesunder Menschenverstand ("x ist nicht y, also muss z ...... sein") oder arithmetische Überlegungen ("1844 < 1989"), die Rekonstruktion der geführten Suche ("Vielleicht kann ich x suchen/finden") und Synthese der endgültigen Antwort (""......, also ist die Antwort x "). Siehe Anhang C für weitere Einzelheiten.

 

Baselines Wir entfernten systematisch ReAct-Trajektorien, um mehrere Grundlinien zu konstruieren (im Format von Abb. 1 (1a-1c)).

(a)Standard-Prompting/Standard-Prompting(Standard), wobei alle Gedanken, Handlungen und Beobachtungen aus dem ReAct-Verlauf entfernt werden.

(b)Gedankenketten-Prompting / Gedankenketten-Prompting(CoT), bei der Handlungen und Beobachtungen entfernt werden und die nur als Grundlinie für die Schlussfolgerungen dient. Eine selbstkonsistente Basislinie (CoT-SC) wurde erstellt, indem während der Inferenz Trajektorien mit einer CoT-Dekodierungstemperatur von 0,7 abgetastet und ein Großteil der Antworten verwendet wurde. Es wurde festgestellt, dass sich die Leistung gegenüber der CoT durchgängig verbessert.

(c)Reine Handlungsaufforderung(Act), das Ideen aus dem ReAct-Verlauf entfernt, entspricht in etwa der Art und Weise, wie WebGPT mit dem Internet interagiert, um Fragen zu beantworten, obwohl es auf einem anderen Aufgaben- und Handlungsraum arbeitet und eher Imitations- und Verstärkungslernen als Aufforderungen verwendet.

 

Kombination von internem und externem Wissen / Combining Internal and External Knowledge Wie wir in Abschnitt 3.3 näher ausführen werden, stellen wir fest, dassReAct zeigte einen sachlicheren und fundierteren Problemlösungsprozess, während CoT eine genauere Argumentationsstruktur formulierte, aber zu Halluzinationen neigte.Daher schlagen wir vor, ReAct und CoT-SC zu verschmelzen und das Modell anhand der folgenden Heuristik entscheiden zu lassen, wann es auf die andere Methode umschaltet.

a) ReActCoT-SCWir haben 7 bzw. 5 Schritte für HotpotQA und FEVER festgelegt, weil wir festgestellt haben, dass mehr Schritte die Leistung von ReAct nicht verbessern.

b) CoT-SCReAct:: WennnDie meisten Antworten in der CoT-SC-Stichprobe erscheinen weniger alsn/In 2 Fällen (d.h. wenn das interne Wissen nicht ausreicht, um die Aufgabe sicher zu unterstützen), kehren Sie zu ReAct zurück.

 

Feinabstimmung/Finetuning Aufgrund der Herausforderungen bei der manuellen Kennzeichnung von Inferenz-Trajektorien und Aktionen in großem Umfang wird in diesem Papier ein Selbsthilfeansatz ähnlich dem von Zelikman et al. (2022) betrachtet, der 3000 von ReAct generierte Trajektorien mit korrekten Antworten (die auch in anderen Baselines verwendet werden) zur Feinabstimmung eines kleineren Sprachmodells (PaLM-8/62B) verwendet, um Trajektorien zu dekodieren, die durch Eingabefragen/-aussagen bedingt sind (alle Gedanken, Handlungen, Beobachtungen). Siehe Anhang B.1 für weitere Einzelheiten.

 

3.3 Ergebnisse und Beobachtungen

ReAct schneidet insgesamt besser ab als Act/ReAct schneidet durchweg besser ab als Act Tabelle 1 zeigt die Ergebnisse von HotpotQA und Fever unter Verwendung von PaLM-540B als Basismodell und unter Verwendung verschiedener Cueing-Methoden. Wir stellen fest, dass ReAct bei beiden Aufgaben besser abschneidet als Act, was den Wert von Schlussfolgerungen zur Steuerung von Handlungen zeigt, insbesondere bei der Synthese der endgültigen Antworten, wie in Abbildung 1 (1c-d) gezeigt. Das Ergebnis der Feinabstimmung (3) bestätigt ebenfalls die Vorteile von Inferenzspuren für fundierteres Handeln.

 

ReAct: 大语言模型中推理和行动协同工作-2

Tabelle 1: PaLM-540B Cueing-Ergebnisse bei HotpotQA und Fever.

 

ReAct vs. CoT Andererseits übertrifft ReAct das CoT bei Fieber (60,9 vs. 56,3) und liegt bei HotpotQA leicht hinter dem CoT (27,4 vs. 29,4). Möglicherweise gibt es nur geringfügige Unterschiede bei den Befürwortern und Gegnern von Eiferer-Aussagen (siehe Anhang D.1), so dass es von entscheidender Bedeutung ist, Maßnahmen zu ergreifen, um genaue und aktuelle Erkenntnisse zu gewinnen. Um die Verhaltensunterschiede zwischen ReAct und CoT bei HotpotQA besser zu verstehen, haben wir nach dem Zufallsprinzip jeweils 50 Trajektorien mit richtigen und falschen Antworten (EM-Urteile) aus ReAct und CoT (insgesamt 200 Beispiele) ausgewählt und deren Erfolgs- und Misserfolgsmuster in Tabelle 2 manuell gekennzeichnet. Im Folgenden sind einige wichtige Beobachtungen aufgeführt.

 

ReAct: 大语言模型中推理和行动协同工作-3

Tabelle 2: Arten von Erfolgs- und Misserfolgsmodi für ReAct und CoT auf HotpotQA und ihre prozentualen Anteile in zufällig ausgewählten Beispielen aus Humanstudien.

 

A) Halluzinationen sind ein ernstes Problem für CoTsführt im Erfolgsmodus zu einer viel höheren Fehlalarmrate als ReAct (14% vs. 6%) und ist der Hauptausfallmodus (56%). Im Gegensatz dazu ist der Problemlösungsverlauf von ReAct relevanter, faktenorientierter und glaubwürdiger, da es auf eine externe Wissensbasis zugreifen kann.

B) Während die Verschachtelung von Argumentations-, Handlungs- und Beobachtungsschritten die Praktikabilität und Glaubwürdigkeit von ReAct erhöht, reduziert diese strukturelle Einschränkung auch die Flexibilität bei der Formulierung von ArgumentationsschrittenWir stellen fest, dass ReAct ein bestimmtes häufiges Fehlermuster aufweist, bei dem das Modell frühere Gedanken und Handlungen neu generiert, was wir als Teil des "Argumentationsfehlers" einstufen, da das Modell nicht angemessen über die nächste Handlung nachdenken kann und aus der Schleife herausspringt.

C) Für ReAct ist der erfolgreiche Abruf von Informationswissen durch Suche entscheidend.Nicht-informative Suchen machten 23% der Fehlerfälle aus, was die Modellüberlegungen entgleisen ließ und es schwierig machte, Ideen wiederzufinden und neu zu formulieren. Dies könnte ein erwarteter Kompromiss zwischen Faktizität und Flexibilität sein, der uns dazu inspiriert hat, eine Strategie vorzuschlagen, die beide Ansätze kombiniert.

Beispiele für jeden Erfolgs- und Misserfolgsmodus finden Sie in Anhang E.1. Wir haben auch festgestellt, dass einige HotpotQA-Fragen möglicherweise veraltete Antwortbezeichnungen enthalten, siehe Abbildung 4 für ein Beispiel.

 

ReAct + CoT-SC schnitt bei der Aufforderung zu LLM am besten ab.Wie in Tabelle 1 gezeigt, waren die besten Cueing-Methoden bei HotpotQA und Fever ReAct → CoT-SC bzw. CoT-SC → ReAct. Abbildung 2 zeigt außerdem die Leistung der verschiedenen Methoden bei Verwendung einer unterschiedlichen Anzahl von CoT-SC-Proben. Während die beiden ReAct + CoT-SC-Methoden bei ihren jeweiligen Aufgaben Vorteile haben, übertreffen sie beide CoT-SC signifikant und konsistent, wenn sie nur 3-5 Stichproben über eine unterschiedliche Anzahl von Stichproben hinweg verwenden, ein Ergebnis, das den Wert einer angemessenen Kombination von modellinternem Wissen mit externem Wissen über die Schlussfolgerungsaufgabe demonstriert.

 

ReAct: 大语言模型中推理和行动协同工作-4

Abbildung 2: PaLM-540B Prompt-Ergebnisse, dargestellt nach der Anzahl der verwendeten CoT-SC-Proben.

 

ReAct ist optimal für die Feinabstimmung geeignet.Abbildung 3 zeigt die erweiterten Auswirkungen von Cueing/Fine-Tuning für die vier Methoden (Standard, CoT, Act, ReAct) auf HotpotQA. In PaLM-8/62B schnitt die Prompting-Methode ReAct von den vier Methoden am schlechtesten ab, was auf die Schwierigkeit zurückzuführen ist, das Denken und Handeln anhand von Szenarien zu erlernen. Bei einer Feinabstimmung mit nur 3.000 Beispielen wurde ReAct jedoch zur besten der vier Methoden, wobei das feinabgestimmte PaLM-8B ReAct alle PaLM-62B Prompting-Methoden und das feinabgestimmte PaLM-62B ReAct alle 540B Prompting-Methoden übertraf. Im Gegensatz dazu schnitt die Feinabstimmung Standard oder CoT signifikant schlechter ab als die Feinabstimmung ReAct oder Act in PaLM8/62B, wobei erstere dem Modell in erster Linie beibringt, sich (möglicherweise fiktive) Wissensfakten zu merken, während letztere dem Modell beibringt, wie man Informationen aus Wikipedia (schlussfolgert und) handelt, was eine allgemeinere Fähigkeit zum schlussfolgernden Denken ist. Da alle Prompting-Methoden immer noch deutlich unter dem domänenspezifischen Stand der Technik liegen (Tabelle 1), glauben wir, dass eine Feinabstimmung mit mehr von Menschen geschriebenen Daten ein besserer Weg sein könnte, um die Fähigkeiten von ReAct zu entfalten.

 

ReAct: 大语言模型中推理和行动协同工作-5

Abbildung 3: Erweiterte Ergebnisse für das Cueing und die Feinabstimmung von HotPotQA unter Verwendung von ReAct (unsere Methode) und der Basislinien.

 

 

4 Aufgaben der Entscheidungsfindung

 

Wir haben ReAct auch an zwei interaktiven sprachbasierten Entscheidungsfindungsaufgaben getestet, ALFWorld und WebShop, die beide komplexe Umgebungen haben, die von Intelligenzen verlangen, über lange Zeiträume mit spärlichen Belohnungen zu handeln, was von Intelligenzen verlangt, effektiv zu denken, um zu handeln und zu erkunden.

ALFWorld ALFWorld (Abbildung 1(2)) ist ein synthetisches, textbasiertes Spiel, das auf den verkörperten ALFRED-Benchmark abgestimmt ist. Es besteht aus 6 Aufgabentypen, bei denen Intelligenzen durch textuelle Aktionen navigieren müssen (z. B. zum Kaffeetisch1 gehen, die Akte2 aufheben, die Schreibtischlampe1 benutzen) und mit einer simulierten Familie interagieren müssen, um übergeordnete Ziele zu erreichen (z. B. die Akte unter der Schreibtischlampe überprüfen). Eine Aufgabeninstanz kann mehr als 50 Orte haben und mehr als 50 Schritte der Expertenstrategie zur Lösung erfordern, was die Intelligenzen herausfordert, Teilziele zu planen und zu verfolgen sowie systematisch zu erkunden (z. B. alle Tische einzeln zu überprüfen, um die Schreibtischlampe zu finden). Eine der Herausforderungen in ALFWorld besteht darin, die wahrscheinlichen Standorte von Haushaltsgegenständen zu bestimmen (z. B. befindet sich eine Tischlampe wahrscheinlich auf einem Tisch, einem Regal oder einer Kommode), was diese Umgebung ideal für LLM macht, um sein vortrainiertes Commonsense-Wissen zu nutzen. Um ReAct anzusteuern, haben wir für jeden Aufgabentyp zufällig drei Trajektorien im Trainingsset annotiert, die jeweils aus spärlichen Ideen bestehen, die (1) das Ziel zerlegen, (2) die Erledigung des Teilziels verfolgen, (3) das nächste Teilziel bestimmen und (4) den Ort des Objekts und das, was damit zu tun ist, mit Hilfe von Commonsense-Reasoning finden. Wir zeigen die für ALFWorld verwendeten Hinweise in Anhang C.4. In Anlehnung an den Ansatz von Shridhar et al. haben wir 134 ungesehene Bewertungsspiele in einer spezifischen Aufgabenstellung evaluiert. Um die Robustheit zu gewährleisten, konstruierten wir 6 Hinweise für jeden Aufgabentyp durch jede Permutation der 3 annotierten Trajektorien.Act-Hinweise wurden unter Verwendung der gleichen Trajektorien konstruiert, aber ohne Ideen - da die Aufgabeninstanzen zufällig aus der Trainingsmenge ausgewählt wurden, waren sie weder in Richtung ReAct noch Act voreingenommen, so dass ein fairer und kontrollierter Vergleich möglich ist, um die Bedeutung von spärlichen Ideen zu testen. Als Basis verwenden wir BUTLER, eine nachahmende Lernintelligenz, die auf 105 Experten-Trajektorien für jeden Aufgabentyp trainiert wurde.

 

WebShop Kann ReAct auch mit verrauschten realen Sprachumgebungen für praktische Anwendungen interagieren? Wir haben WebShop untersucht, eine kürzlich vorgeschlagene Online-Shopping-Website-Umgebung mit 1,18 Millionen realen Produkten und 12k menschlichen Anweisungen. Im Gegensatz zu ALFWorld enthält Webshop eine große Menge an strukturiertem und unstrukturiertem Text (z.B. Produkttitel, Beschreibungen und Optionen, die von Amazon gecrawlt wurden) und bittet Intelligenzen, auf der Grundlage von Benutzerbefehlen damit zu interagieren (z.B. "Ich suche einen Nachttisch mit Schubladen. Es sollte eine Nickeloberfläche haben und weniger als 140 $ kosten") durch Webinteraktionen (z. B. Suche nach "Nachttisch Schubladen" und Auswahl von Schaltflächen wie "Farbe: Modernes Nickelweiß" oder "Zurück zu Suche", Auswahl von Schaltflächen wie "Farbe: Modernes Nickelweiß" oder "Zurück"), um das Produkt zu kaufen. Diese Aufgabe wurde anhand der mittleren Punktzahl (Prozentsatz der erforderlichen Attribute, die vom ausgewählten Produkt abgedeckt wurden, gemittelt über alle Episoden) und der Erfolgsquote (Prozentsatz der Episoden, in denen das ausgewählte Produkt alle Anforderungen erfüllte) bei 500 Testanweisungen bewertet. Wir haben Act-Prompts entwickelt, die Aktionen für die Suche, die Auswahl von Produkten, die Auswahl von Optionen und den Kauf beinhalten, während ReAct-Prompts zusätzliche Überlegungen anstellen, um zu bestimmen, was zu erkunden ist, wann gekauft werden soll und welche Produktoptionen für die Anweisungen relevant sind. Siehe Tabelle 6 für Beispielaufforderungen und Tabelle 10 im Anhang für Modellvorhersagen. Wir vergleichen dies mit einem Ansatz des Nachahmungslernens, der mit 1012 persönlich annotierten Trajektorien trainiert wurde, und einem zusätzlichen Ansatz des Nachahmungs- und Verstärkungslernens (IL + RL), der mit 10587 Trainingsanweisungen trainiert wurde.

 

am Ende ReAct übertrifft Act sowohl auf der ALFWorld- (Tabelle 3) als auch auf der Webshop-Plattform (Tabelle 4): Auf der ALFWorld-Plattform erreicht das leistungsstärkste ReAct-Experiment eine durchschnittliche Erfolgsrate von 711 TP3T, was die besten Act- (451 TP3T) und BUTLER-Experimente (371 TP3T) deutlich übertrifft. Tatsächlich übertrifft das schlechteste ReAct-Experiment (481 TP3T) auch die besten Experimente beider Methoden. Darüber hinaus blieb der Vorteil von ReAct gegenüber Act über die sechs kontrollierten Experimente hinweg bestehen, wobei die relativen Leistungssteigerungen von 331 TP3T bis 901 TP3T reichten, mit einem Durchschnitt von 621 TP3T. Aus qualitativer Sicht stellten wir fest, dass Act das Ziel nicht korrekt in kleinere Unterziele zerlegte oder den aktuellen Zustand der Umgebung nicht im Auge behielt, wenn überhaupt kein Denken vorhanden war. Beispiele für Trajektorien, die ReAct und Act vergleichen, finden Sie in Anhang D.2.1 und Anhang D.2.2.

 

ReAct: 大语言模型中推理和行动协同工作-1

Tabelle 3: AlfWorld aufgabenspezifische Erfolgsquoten (%). Die Ergebnisse für BUTLER und BUTLERg stammen aus Shridhar et al. 2020b Tabelle 4. Alle Methoden verwenden Greedy-Decodierung, mit Ausnahme von BUTLER, das Balkensuche verwendet.

 

ReAct: 大语言模型中推理和行动协同工作-7

Tabelle 4: Punktzahlen und Erfolgsquoten (SR) im Webshop. IL/IL+RL-Daten entnommen aus Yao et al. (2022).

 

Im Webshop konnten einmalige Act-Hinweise Hand in Hand mit IL- und IL+RL-Methoden gehen. Mit zusätzlichem Sparse Reasoning erreicht ReAct eine deutlich bessere Leistung, mit einer absoluten Verbesserung von 10% gegenüber der bisher besten Erfolgsrate. Bei der Untersuchung von Beispielen haben wir festgestellt, dass ReAct eher in der Lage ist, die Lücke zwischen verrauschten Beobachtungen und Handlungen zu schließen, indem es Produkte und Optionen identifiziert, die für die Anweisung relevant sind (z. B.: "Für den 'platzsparenden Wohnzimmerhocker' hat der Artikel eine Größe von ' 39x18x18inch' und 'blau' Optionen, die es wert zu sein scheinen, gekauft zu werden") . Allerdings schneiden die vorhandenen Methoden immer noch weit weniger gut ab als menschliche Experten (Tabelle 4), die wesentlich mehr Produktexploration und Rekonstruktion von Suchanfragen durchführen, was eine Herausforderung für cue-basierte Methoden bleibt.

 

Über den Wert interner Überlegungen gegenüber externem Feedback Soweit wir wissen, ist ReAct die erste Demonstration von LLM, die auf ein geschlossenes System angewendet wird, das Denken und Handeln in einer interaktiven Umgebung kombiniert. Die vielleicht ähnlichste frühere Arbeit ist Internal Monologue (IM) von Huang et al. (2022b), bei der die Handlungen verkörperter Agenten durch den gleichnamigen "internen Monolog" gesteuert werden.Der "interne Monolog" des IM beschränkt sich jedoch auf die Beobachtung des Zustands der Umwelt und der Aufgaben, die der Agent erfüllen muss, um seine Ziele zu erreichen.Im Gegensatz dazu ist die Entscheidungsinferenzverfolgung in ReAct flexibel und spärlich, so dass verschiedene Inferenztypen für unterschiedliche Aufgaben induziert werden können (siehe Abschnitt 2).

Um den Unterschied zwischen ReAct und IM zu demonstrieren und die Bedeutung des internen Denkens im Vergleich zu einfachen Antworten auf externes Feedback zu betonen, führten wir Ablationsexperimente mit einem Denkmuster durch, das aus IM-artigem, dichtem externen Feedback bestand. Wie in Tabelle 3 gezeigt, übertraf ReAct die IM-artigen Aufforderungen (ReAct-IM) bei weitem (71% vs. 53% für den Gesamterfolg), mit konsistenten Vorteilen bei fünf der sechs Aufgaben. Qualitativ stellten wir fest, dass ReAct-IM häufig Fehler bei der Bestimmung des Zeitpunkts der Erledigung von Teilzielen oder der Festlegung des nächsten Teilziels machte, was auf eine fehlende Dekomposition der Ziele auf hoher Ebene zurückzuführen ist. Darüber hinaus hatten viele der ReAct-IM-Trajektorien auch Schwierigkeiten bei der Bestimmung, wo sich Gegenstände in der ALFWorld-Umgebung befinden könnten, da es ihnen an gesundem Menschenverstand mangelte.
Beide Unzulänglichkeiten können mit dem ReAct-Paradigma behoben werden. Weitere Einzelheiten zu ReAct-IM finden Sie in Anhang B.2. Beispielhafte Hinweise zu ReAct-IM finden Sie in Anhang C.4, und Beispieltrajektorien in Anhang D.2.3.

 

 

 5 Verwandte Arbeiten

 

Ein linguistisches Modell der Argumentation Die vielleicht bekannteste Arbeit über das schlussfolgernde Denken mit Large Language Models (LLMs) ist Chain-of-Thought (CoT), die die Fähigkeit von LLMs aufzeigte, ihre eigenen "Denkprozesse" zur Lösung von Problemen zu formulieren. Seitdem wurden mehrere Folgearbeiten durchgeführt, darunter Least-to-Most Prompting für komplexe Aufgaben, Zero-Shot CoT und selbstkonsistentes Denken. Kürzlich untersuchten (Madaan & Yazdanbakhsh, 2022) systematisch den Aufbau und die Struktur von CoTs und stellten fest, dass das Vorhandensein von Symbolen, Schemata und Text entscheidend für die Wirksamkeit von CoTs ist.
Andere Arbeiten haben zu komplexeren Schlussfolgerungsarchitekturen geführt, die über einfache Hinweise hinausgehen. Bei Selection-Inference beispielsweise wird der Schlussfolgerungsprozess in "Auswahl"- und "Schlussfolgerungs"-Schritte unterteilt, und STaR leitet den Schlussfolgerungsprozess durch Feinabstimmung des Modells auf der Grundlage der vom Modell selbst erzeugten korrekten Schlussfolgerung. Schlussfolgernder Prozess. Faithful Reasoning zerlegt mehrstufige Schlussfolgerungen in drei Schritte, von denen jeder von einem speziellen LM ausgeführt wird. Ähnliche Ansätze, wie z. B. Scratchpad, zeigen ebenfalls Verbesserungen bei mehrstufigen Berechnungsproblemen durch Feinabstimmung des LM auf dazwischen liegenden Berechnungsschritten.
Im Gegensatz zu diesen Ansätzen führt ReAct mehr als isolierte, fixe Schlussfolgerungen durch und integriert Modellaktionen und ihre entsprechenden Beobachtungen in einen kohärenten Eingabestrom, so dass das Modell genauer schlussfolgern und Aufgaben lösen kann, die über das Schlussfolgern hinausgehen (z. B. interaktive Entscheidungsfindung).

 

Verwendung von Sprachmodellen für die Entscheidungsfindung. Die Fähigkeiten leistungsfähiger LLMs erlauben es ihnen, Aufgaben zu erfüllen, die über die Spracherzeugung hinausgehen, und es wird immer beliebter, LLMs als Strategiemodell für die Entscheidungsfindung zu nutzen, insbesondere in interaktiven Umgebungen.WebGPT verwendet LLMs, um mit Webbrowsern zu interagieren, auf Webseiten zu navigieren und Antworten auf komplexe Fragen aus ELI abzuleiten5 . Im Gegensatz dazu modelliert WebGPT nicht explizit Denk- und Argumentationsprozesse, sondern verlässt sich auf teures menschliches Feedback zum Verstärkungslernen. In der Dialogmodellierung trainieren Systeme wie BlenderBot und Sparrow sowie aufgabenorientierte Dialogsysteme wie SimpleTOD ebenfalls LMs, um Entscheidungen über API-Aufrufe zu treffen. Im Gegensatz zu ReAct berücksichtigen sie nicht explizit den Inferenzprozess und verlassen sich auf teure Datensätze und menschliches Feedback für das Lernen von Richtlinien. Im Gegensatz dazu lernt ReAct Richtlinien auf billigere Art und Weise, da der Entscheidungsprozess nur Sprache benötigt, um den Schlussfolgerungsprozess zu beschreiben.

 

Sprachmodelle (LLMs) werden auch zunehmend für die Planung und Entscheidungsfindung in interaktiven und verkörperten Umgebungen eingesetzt. In dieser Hinsicht sind die für ReAct relevantesten wahrscheinlich SayCan undInnerer MonologIn SayCan werden LLMs aufgefordert, die möglichen Aktionen des Roboters direkt vorherzusagen, die dann von einem auf der visuellen Umgebung basierenden Verfügbarkeitsmodell neu sortiert werden, um die endgültige Vorhersage zu treffen. In SayCan werden LLMs aufgefordert, die möglichen Aktionen des Roboters direkt vorherzusagen, die dann von einem visuellen, auf der Umgebung basierenden Verfügbarkeitsmodell neu geordnet werden, um die endgültige Vorhersage zu treffen.Inner Monologue wird weiter verbessert durch die Hinzufügung des berühmten "inneren Monologs", der als Feedback aus der Umgebung implementiert wird. Feedback aus der Umgebung. Unseres Wissens nach ist Inner Monologue die erste Arbeit, die ein solches geschlossenes System demonstriert, und ReAct baut darauf auf. Wir argumentieren jedoch, dass Inner Monologue nicht wirklich inneres Denken enthält - dies wird in Abschnitt 4 näher erläutert. Wir weisen auch darauf hin, dass sich die Verwendung von Sprache als semantisch reichhaltiger Input in interaktiven Entscheidungsprozessen in anderen Bereichen bewährt hat. Es wird immer deutlicher, dass mit LLMs die Sprache als grundlegender kognitiver Mechanismus eine Schlüsselrolle in der Interaktion und Entscheidungsfindung spielen wird. Darüber hinaus haben Fortschritte bei LLMs die Entwicklung vielseitiger und universell einsetzbarer Agenten wie Reed et al.

 

 

6 Schlussfolgerung

 

Wir stellen ReAct vor - eine einfache, aber effektive Methode zur Koordinierung von Schlussfolgerungen und Aktionen in großen Sprachmodellen. Durch eine Reihe von Experimenten zur Beantwortung von Multi-Hop-Fragen, Faktenüberprüfung und interaktiven Entscheidungsfindungsaufgaben zeigen wir, dass ReAct zu überlegener Leistung mit parsierbaren Entscheidungspfaden führt. Trotz der Einfachheit unseres Ansatzes erfordern komplexe Aufgaben in großen Handlungsräumen mehr Beispiele, um gut zu lernen, was die Grenzen der Eingabelänge beim kontextuellen Lernen leicht überschreiten kann. Wir haben den fein abgestimmten Ansatz an HotpotQA ausprobiert und die ersten Ergebnisse sind ermutigend, aber es ist zu erwarten, dass das Lernen mit qualitativ hochwertigeren menschlichen Annotationen die Leistung weiter verbessert. Die Skalierbarkeit von ReAct beim Multi-Task-Training in Kombination mit ergänzenden Paradigmen wie dem Verstärkungslernen könnte zu leistungsfähigeren Agenten führen, die das Potenzial von LLMs für weitere Anwendungen erschließen.

 

 

A Zusätzliche Schlussfolgerungen

 

A.1 GPT-3-Versuch

ReAct: 大语言模型中推理和行动协同工作-8

Tabelle 5: Vergleich der Ergebnisse für ReAct-Aufforderungen mit PaLM-540B und GPT-3 (text-davinci-002, greedy decoding). Bei HotpotQA haben wir eine Teilmenge von 500 Validierungsfragen zufällig ausgewählt. In ALFWorld haben wir alle 134 ungesehenen Instanzen der Verifikationsaufgabe mit dem besten Satz von Hints verwendet, der gemäß PaLM-540B ausgewählt wurde.

Wir haben zusätzliche GPT-3-Experimente (Brown et al., 2020) durchgeführt, um die Allgemeingültigkeit der ReAct-Cue-Leistung über verschiedene große Sprachmodelle hinweg zu bestätigen. Wie in Tabelle 5 gezeigt, übertrifft GPT-3 (text-davinci-002, greedy decoding) durchweg PaLM-540B bei HotpotQA und ALFWorld, möglicherweise weil es fein abgestimmt wurde, um menschlichen Anweisungen zu folgen. Dies deutet darauf hin, dass der ReAct-Hinweis bei verschiedenen Aufgaben für verschiedene große Sprachmodelle effektiv ist. Der Code für diese Experimente ist unter https://react-lm.github.io/ zu finden.

 

A.2 ReAct zum Erwerb aktueller Kenntnisse über HotpotQA

ReAct: 大语言模型中推理和行动协同工作-9

Abbildung 4: Ein weiteres Beispiel für eine Hotpot-Quizfrage, bei der die ursprünglichen Beschriftungen nicht mehr aktuell sind. Nur ReAct war in der Lage, die aktuellsten Antworten durch tatsächliche Web-Interaktionen in Verbindung mit Schlussfolgerungen zu erhalten.

 

A.3 Verhaltenskorrekturen für die menschliche Beteiligung am Kreislauf auf ALFWorld

Wir haben auch menschliche Interaktionen mit ReAct untersucht, die es dem Menschen ermöglichten, ReActs Gedankenspuren zu überprüfen und zu bearbeiten. Abbildung 5 zeigt, dass ReAct durch einfaches Entfernen eines halluzinatorischen Satzes in Akt 17 und Hinzufügen einiger Hinweise in Akt 23 dazu gebracht werden kann, sein Verhalten erheblich zu ändern, sich an diese menschlichen Gedankenänderungen anzupassen und die Aufgabe erfolgreich zu lösen. Aus menschlicher Sicht wird die Lösung einer solchen Aufgabe viel einfacher, da nicht mehr Dutzende von Aktionen eingegeben werden müssen, sondern nur noch einige wenige Gedanken, was eine neue Art der Zusammenarbeit zwischen Mensch und Maschine ermöglicht. Wir weisen darauf hin, dass eine solche Bearbeitung von Richtlinien für Act und frühere RL-Ansätze schwierig ist, da der Mensch die Modellparameter nicht ändern kann und die Änderung einiger weniger Aktionen das restliche Verhalten des Modells nicht beeinflussen kann. Dieses Paradigma geht auch über den menschlichen Dialog hinaus, um Ziele oder Unterziele zu aktualisieren, wie in Huang et al. (2022b) beschrieben - während die Bearbeitung von ReAct-Ideen all dies tun kann, kann sie auch alle internen Überzeugungen des Modells, Denkstile oder flexible Gedankenraumunterstützung ändern, um die Aufgabe besser zu lösen. Wir glauben, dass dies eine spannende Richtung für die menschliche Ausrichtung ist, und sehen systematischere Forschung als zukünftige Arbeit an.

 

ReAct: 大语言模型中推理和行动协同工作-10

Abbildung 5: Beispiele für HCI-Verhaltenskorrekturen mit ReAct in AlfWorld. (a) Die ReAct-Trajektorie scheitert aufgrund von halluzinatorischem Denken (Verhalten 17). (b) Durch einfaches Editieren der beiden Gedanken (Verhalten 17, 23) durch einen Menschen erzeugt die ReAct-Trajektorie mit Erfolg die gewünschte Denk-Trajektorie und Handlung.

 

 

B Experimentelle Einzelheiten

 

B.1 Feinabstimmung der Details des Hot-Topics-Quiz

Für alle Feinabstimmungen wird eine Losgröße von 64 verwendet. Auf dem PaLM-8B führen wir für die ReAct- und Act-Methoden eine Feinabstimmung um 4.000 Schritte und für die Standard- und CoT-Methoden eine Feinabstimmung um 2.000 Schritte durch. Auf dem PaLM-62B haben wir die ReAct- und Act-Methoden um 4.000 Schritte und die Standard- und CoT-Methoden um 1.000 Schritte feinabgestimmt. Wir stellen fest, dass die ReAct- und Act-Methoden in der Regel von mehr Trainingsschritten (und mehr Trainingsdaten) profitieren, während die Standard- und CoT-Methoden schon bald nach der Feinabstimmung zu schwächeln beginnen.

 

B.2 ALFWORLD Instant Style Details

Für die Experimente zur unmittelbaren Stilablation wurden dieselben Expertentrajektorien, die in ReAct verwendet wurden, erneut annotiert, und diese Trajektorien enthielten intern ein dichtes externes Feedback-Denken, das ReAct-IM darauf beschränkte, nur (1) die Zerlegung des aktuellen Ziels und (2) das aktuelle Teilziel zu berücksichtigen, das abgeschlossen werden muss. Insbesondere fehlt ReAct-IM (1) das Denken, das bestimmt, wann ein Teilziel abgeschlossen ist, (2) das Denken, das bestimmt, was das nächste Teilziel sein sollte, (3) das Denken, das das LLM dazu veranlasst, sich auf sein internes, vortrainiertes Wissen zu beziehen, um die möglichen Standorte von Objekten in der Umgebung zu identifizieren.

 

 

C PROMPTS

 

C.1 Quiz zu aktuellen Themen

Heiße Q&A-Tipps

Original
Question Answer
What’s the elevation range for the area that the eastern sector of the Colorado orogeny extends into? 1,800 to 7,000 ft
Musician and satirist Allie Goertz wrote a song about “The Simpsons” character Milhouse. Who did Matt Groening name after Nixon? Richard Nixon
Which documentary is about Finnish rock groups, Adam Clayton Powell, or The Saimaa Gesture? The Saimaa Gesture
What profession do Nicholas Ray and Elia Kazan have in common? Director, screenwriter, actor
Which magazine was started first, Arthur’s Magazine or First for Women? Arthur’s Magazine
Are Pavel Urysohn and Leonid Levin known for the same type of work? Yes

 

Original
Ausgaben Lösung
Wie hoch ist der Höhenbereich der östlichen Ausdehnung der Colorado-Orogenese? 1.800 bis 7.000 ft.
Die Musikerin und Satirikerin Allie Goertz schrieb einen Song über die Simpsons-Figur Milhouse, Matt Groening, benannt nach welchem Nixon-Mann? Richard Nixon.
Was ist der Dokumentarfilm über die finnische Rockband Adam Clayton Powell oder die Aktionen von Saimaa? Operation Saïmaa
Welche Berufe haben Nicholas Ray und Elia Kazan gemeinsam? Regisseur, Drehbuchautor, Schauspieler
Welche Zeitschrift wurde früher gegründet, Arthur's Magazine oder First for Women? Arthur’s Magazine
Sind Pavel Urizon und Leonid Levin für dieselbe Art von Arbeit bekannt?

 

Act
Question Action Observation
What is the elevation range for the area that the eastern sector of the Colorado orogeny extends into? Search[Colorado orogeny] The Colorado orogeny was an episode of mountain building (an orogeny) in Colorado and surrounding areas.
Lookup[eastern sector] (Result 1 / i) The eastern sector extends into the High Plains and is called the Central Plains orogeny.
Search[High Plains] High Plains refers to one of two distinct land regions:
Search[High Plains (United States)] The High Plains are a subregion of the Great Plains. From east to west, the High Plains rise in elevation from around 1,800 to 7,000 ft (550 to 2,130 m).[3]
Finish [1,800 to 7,000 ft]
Musician and satirist Allie Goertz wrote a song about the “The Simpsons” character Milhouse, who Matt Groening named after who? Search[Milhouse] Milhouse Mussolini Van Houten is a recurring character in the Fox animated television series The simpsons voiced by Pamela Hayden and created by Matt Groening.
Lookup[named after] (Result 1 / l) Milhouse was named after U.S. president Richard Nixon, whose middle name was Milhous.
Finish [Richard Nixon]
Which documentary is about Finnish rock groups, Adam clayton Powell or The Saimaa Gesture? Search[Adam clayton Powell] Could not find [Adam clayton Powell]. Similar: [‘Adam Clayton Powel III’, ‘Seventh Avenue (Manhattan)’, ‘Adam clayton Powell Jr. State office Building’, ‘Isabel Washington Powell’, ‘Adam Powell’, ‘Adam Clayton Powell (film)”, “Giancarlo Esposito”].
Search[Adam clayton Powell (film)] Adam clayton Powell is a 1989 American documentary film directed by Richard Kilberg. The film is about the rise and fall of influential African-American politician Adam clayton Powell Jr.[3][4] It was later aired as part of the PBs series The American Experience.
Finish [The Saimaa Gesture]
What profession does Nicholas Ray and Elia Kazan have in common? Search[Nicholas Ray] Nicholas Ray (born Raymond Nicholas Kienzle Jr., ) August 7,1911 -June16, 1979) was an American film director, screenwriter, and actor best known for the 1955 film Rebel Without a Cause.
Search[Elia Kazan] Elia Kazan was an American film and theatre director, producer, screenwriter and actor.
 Finish[director, screenwriter, actor]
Welche Zeitschrift wurde zuerst gegründet: Arthur's Magazine oder First for Women? Suche [Arthur's Magazine] Arthur's Magazine (1844-1846) war eine amerikanische Literaturzeitschrift, die im 19. Jahrhundert in Philadelphia erschien.
Search[First for Women] First for Women ist eine Frauenzeitschrift, die von der Bauer Media Group in den USA herausgegeben wird.[1] Die Zeitschrift wurde 1989 gegründet.
Beenden [Arthurs Magazin]
Were Pavel Urysohn and Leonid Levin known for the same type of work? Search[Pavel Urysohn] Pavel Samuilovich Urysohn (February 3, 1898 – August 17, 1924) was a Soviet mathematician who is best known for his contributions in dimension theory.
Search[Leonid Levin] Leonid Anatolievich Levin is a Soviet-American mathematician and computer scientist.
Finish[yes]

 

Act
Ausgaben Bewegung beachten Sie
Wie groß ist der Höhenbereich des Gebiets, in das sich der östliche Abschnitt der Colorado-Orogenese erstreckt? Suche [Colorado Mountain Building Campaign] Die Colorado-Orogenese ist eine Gebirgsbildungsbewegung (Orogenese), die in und um Colorado stattfand.
Suche nach [Östlicher Sektor] (Ergebnisse 1 / i) Der östliche Abschnitt erstreckt sich bis in die High Plains und wird als Central Plains Orogenese bezeichnet.
Suche [High Plains] Die High Plains sind eine von zwei unterschiedlichen Regionen:
Suche [High Plains (USA)] Die High Plains sind eine Unterregion der Great Plains. Von Osten nach Westen steigt die Höhe der High Plains von etwa 550 Metern (1.800 Fuß) auf 2.130 Meter (7.000 Fuß) an. [3]
erfüllen. [1.800 bis 7.000 Fuß]
Die Musikerin und Satirikerin Allie Goertz hat einen Song über die Simpsons-Figur Milhouse geschrieben. Nach wem hat Matt Groening die Figur benannt? Suche [Milhouse] Milhouse Mussolini Van Houten ist eine Figur in der Fox-Zeichentrickserie Die Simpsons, die von Pamela Hayden gesprochen und von Matt Groening geschaffen wird.
Suche nach [benannte Quelle] (Ergebnisse 1 / l) Milhouse wurde nach Richard Nixon, dem Präsidenten der Vereinigten Staaten, benannt, dessen zweiter Vorname Milhous war.
erfüllen. [Richard Nixon]
Welcher Dokumentarfilm handelt von einer finnischen Rockband, Adam Clayton Powell oder The Saimaa Gesture? Suche [Adam Clayton Powell] Es wurde kein [Adam Clayton Powell] gefunden. Ähnlich: ['Adam Clayton Powel III', 'Seventh Avenue (Manhattan)', 'Adam clayton Powell Jr. State Office Building', 'Isabel Washington Powell', 'Adam Powell', 'Adam Clayton Powell (Film)', 'Giancarlo Esposito'].
Suche [Adam Clayton Powell (Film)] Adam Clayton Powell ist ein amerikanischer Dokumentarfilm aus dem Jahr 1989 unter der Regie von Richard Kilberg. Der Film verfolgt den Aufstieg und Fall des einflussreichen afroamerikanischen Politikers Adam Clayton Powell Jr. [3][4] Er wurde später als Teil der PBS-Serie The American Experience ausgestrahlt.
erfüllen. [The Saimaa Gesture]
Welche Berufe haben Nicholas Ray und Elia Kazan gemeinsam? Suche [Nicholas Ray] Nicholas Ray (eigentlich Raymond Nicholas Kienzle Jr.,) 7. August 1911 - 16. Juni 1979) war ein amerikanischer Filmregisseur, Drehbuchautor und Schauspieler, der vor allem durch den Film Rebel Without a Cause von 1955 bekannt wurde.
Suche [Elia Kazan] Elia Kazan ist ein amerikanischer Film- und Theaterregisseur, Produzent, Drehbuchautor und Schauspielerin.
Abgeschlossen [Regisseur, Drehbuchautor, Schauspieler]
Welche Zeitschrift wurde zuerst gegründet, Arthur's Magazine oder First for Women? Suche in [Arthurs Magazin]. Arthur's Magazine (1844-1846) war eine amerikanische Literaturzeitschrift, die im 19. Jahrhundert in Philadelphia, USA, erschien.
Suche [First for Women] First for Women ist eine Frauenzeitschrift, die in den Vereinigten Staaten von der Bauer Media Group herausgegeben wird.[1] Sie wurde 1989 gegründet. [1] Die Zeitschrift wurde 1989 eingeführt.
Beenden [Arthurs Magazin]
Sind Pavel Urysohn und Leonid Levin für dieselbe Art von Arbeit bekannt? Suche [Pavel Urysohn] Pawel Samuilowitsch Urysohn (3. Februar 1898 - 17. August 1924) war ein sowjetischer Mathematiker, der vor allem für seine Beiträge zur dimensionalen Zahlentheorie bekannt ist.
Suche [Leonid Levin] Leonid Anatolievich Levin war ein sowjetisch-amerikanischer Mathematiker und Computerwissenschaftler.
Abgeschlossen [ja]

 

CoT
Question Thought Answer
What is the elevation range for the area that the eastern sector of the Colorado orogeny extends into? Let’s think step by step. The eastern sector of Colorado orogeny extends into the High Plains. High Plains rise in elevation from around 1,800 to 7,000 ft, so the answer is 1,800 to 7,000 ft. 1,800 to 7,000 ft
Musician and satirist Allie Goertz wrote a song about the “The Simpsons” character Milhouse, who Matt Groening named after who? Let’s think step by step. Milhouse was named after U.S. president Richard Nixon, so the answer is Richard Nixon. Richard Nixon
Which documentary is about Finnish rock groups, Adam Clayton Powell or The Saimaa Gesture? Let’s think step by step. Adam Clayton Powell (film) is a documentary about an African-American politician, not Finnish rock groups. So the documentary about Finnish rock groups must instead be The Saimaa Gesture. The Saimaa Gesture
What profession does Nicholas Ray and Elia Kazan have in common? Let’s think step by step. Professions of Nicholas Ray are director, screenwriter, and actor. Professions of Elia Kazan are director, producer, screenwriter, and actor. So profession Nicholas Ray and Elia Kazan have in common is director, screenwriter, and actor. director, screenwriter, actor
Which magazine was started first Arthur’s Magazine or First for Women? Let’s think step by step. Arthur’s Magazine was started in 1844. First for Women was started in 1989. 1844 (Arthur’s Magazine) < 1989 (First for Women), so Arthur’s Magazine was started first. Arthur’s Magazine
Were Pavel Urysohn and Leonid Levin known for the same type of work? Let’s think step by step. Pavel Urysohn is a mathematician. Leonid Levin is a mathematician and computer scientist. So Pavel Urysohn and Leonid Levin have the same type of work. Yes

 

CoT
Ausgaben Denkprozess Lösung
Wie groß ist der Höhenbereich des Gebiets, in das sich der östliche Abschnitt der Colorado-Orogenese erstreckt? Lassen Sie uns dies Schritt für Schritt betrachten. Der östliche Abschnitt der Colorado-Orogenese reicht bis in die High Plains. Die Höhe der High Plains steigt von etwa 1.800 Fuß auf 7.000 Fuß an, also lautet die Antwort 1.800 bis 7.000 Fuß. 1.800 bis 7.000 ft.
Die Musikerin und Satirikerin Allie Goertz hat einen Song über die Simpsons-Figur Milhouse geschrieben. Nach wem hat Matt Groening die Figur benannt? Milhouse ist nach Richard Nixon, dem Präsidenten der Vereinigten Staaten, benannt, die Antwort lautet also Richard Nixon. Richard Nixon.
Handelt der Dokumentarfilm von der finnischen Rockband Adam Clayton Powell oder von The Semaja Gesture? Betrachten wir es Schritt für Schritt. Adam Clayton Powell (Film) ist ein Dokumentarfilm über einen afro-amerikanischen Politiker, nicht über eine finnische Rockband. Ein Dokumentarfilm über eine finnische Rockband wäre also The Semaja Gesture. Die Semaya-Geste
Welche Berufe haben Nicholas Ray und Ilya Kazan gemeinsam? Betrachten wir es Schritt für Schritt. Nicholas Rays Beruf ist Regisseur, Drehbuchautor und Schauspieler. Der Beruf von Ilya Kazan ist Regisseur, Produzent, Drehbuchautor und Schauspieler. Nicholas Ray und Ilya Kazan teilen sich also den Beruf des Regisseurs, Drehbuchautors und Schauspielers. Regisseur, Drehbuchautor, Schauspieler
Wurde Arthur's Magazine oder First for Women zuerst gegründet? Lassen Sie uns dies Schritt für Schritt betrachten. Arthur's Magazine wurde 1844 gegründet. First for Women wurde 1989 gegründet. 1844 (Arthur's Magazine) < 1989 (First for Women), also wurde Arthur's Magazine zuerst gegründet. Arthurs Magazin
Sind Pavel Urysohn und Leonid Levin für dieselbe Art von Arbeit bekannt? Betrachten wir dies Schritt für Schritt: Pavel Urysohn ist Mathematiker, Leonid Levin ist Mathematiker und Computerwissenschaftler. Pavel Urysohn und Leonid Levin haben also die gleiche Art von Beruf.

 

ReAct
Question Thought Action Observation
What is the elevation range for the area that the eastern sector of the Colorado orogeny extends into? I need to search Colorado orogeny, find the area that the eastern sector of the Colorado orogeny extends into, then find the elevation range of the area. Search[Colorado orogeny] The Colorado orogeny was an episode of mountain building (anorogeny) in Colorado and surrounding areas.
It does not mention the eastern sector. So I need to look up eastern sector. Lookup[eastern sector]  (Result 1 / 1) The eastern sector extends into the High Plains and is called the Central Plains orogeny.
The eastern sector of Colorado orogeny extends into the High Plains. So I need to search High Plains and find its elevation range. Search[High Plains] High Plains refers to one of two distinct land regions
I need to instead search High Plains (United States). Search[High Plains (United States)] The High Plains are a subregion of the Great Plains. From east to west, the High Plains rise in elevation from around 1,800 to 7,000 ft (550 to 2,130 m).[3]
 High Plains rise in elevation from around 1,800 to 7,000 ft, so the answer
is 1,800 to 7,000 ft.
Finish[1,800 to 7,000 ft]
Musician and satirist Allie Goertz wrote a song about the “The Simpsons” character Milhouse, who Matt Groening named after who? The question simplifies to “The Simpsons” character Milhouse is named after who. I only need to search Milhouse and find who it is named after. Search[Milhouse] Milhouse Mussolini Van Houten is a recurring character in the Fox animated television series The Simpsons voiced by Pamela Hayden and created by Matt Groening.
The paragraph does not tell who Milhouse is named after, maybe I can look up “named after”. Lookup[named after] (Result 1 / 1) Milhouse was named after U.S. president Richard Nixon, whose middle name was Milhous.
Milhouse was named after U.S. president Richard Nixon, so the answer is Richard Nixon. Finish[Richard Nixon]
Which documentary is about Finnish rock groups, Adam Clayton Powell or The Saimaa Gesture? I need to search Adam Clayton Powell and The Saimaa Gesture, and find which documentary is about Finnish rock groups. Search[Adam Clayton Powell] Konnte [Adam Clayton Powell] nicht finden. Ähnlich: ['Adam Clayton Powell III', 'Seventh Avenue (Manhattan)', 'Adam Clayton Powell Jr. Clayton Powell Jr. State Office Building', 'Isabel Washington Powell', 'Adam Powell ', 'Adam Clayton Powell (Film)', 'Giancarlo Esposito'].
To find the documentary, I can search Adam Clayton Powell (film). Search[Adam Clayton Powell (film)] Adam Clayton Powell is a 1989 American documentary film directed by Richard Kilberg. The film is about the rise and fall of influential African-American politician Adam Clayton Powell Jr.[3][4] It was later aired as part of the PBS series The American Experience.
Adam Clayton Powell (film) is a documentary about an African-American politician, not Finnish rock groups. So the documentary about Finnish rock groups must instead be The Saimaa Gesture. Finish[The Saimaa Gesture]
What profession does Nicholas Ray and Elia Kazan have in common? I need to search Nicholas Ray and Elia Kazan, find their professions, then find the profession they have in common. Search[Nicholas Ray] Nicholas Ray (born Raymond Nicholas Kienzle Jr., August 7, 1911 – June 16, 1979) was an American film director, screenwriter, and actor best known for the 1955 film Rebel Without a Cause.
Professions of Nicholas Ray are director, screenwriter, and actor. I need to search Elia Kazan next and find his professions. Search[Elia Kazan] Elia Kazan was an American film and theatre director, producer, screenwriter and actor.
Professions of Elia Kazan are director, producer, screenwriter, and actor. So profession Nicholas Ray and Elia Kazan have in common is director, screenwriter, and actor. Finish[director, screenwriter, actor]
Welche Zeitschrift wurde zuerst gegründet: Arthur's Magazine oder First for Women? Ich muss Arthur's Magazine und First for Women durchsuchen, um herauszufinden, welche Zeitschrift zuerst gegründet wurde. Suche [Arthur's Magazine] Arthur's Magazine (1844-1846) war eine amerikanische Literaturzeitschrift, die im 19. Jahrhundert in Philadelphia erschien.
Arthur's Magazine wurde 1844 gegründet. Ich muss als nächstes First for Women durchsuchen. Search[First for Women] First for Women ist eine Frauenzeitschrift, die von der Bauer Media Group in den USA herausgegeben wird.[1] Die Zeitschrift wurde 1989 gegründet.
First for Women wurde 1989 gegründet. 1844 (Arthur's Magazine) < 1989 (First for Women), also wurde Arthur's Magazine zuerst gegründet . Beenden [Arthurs Magazin]
Were Pavel Urysohn and Leonid Levin known for the same type of work? I need to search Pavel Urysohn and Leonid Levin, find their types of work, then find if they are the same. Search[Pavel Urysohn] Pavel Samuilovich Urysohn (February 3, 1898 – August 17, 1924) was a Soviet mathematician who is best known for his contributions in dimension theory.
Pavel Urysohn is a mathematician. I need to search Leonid Levin next and find its type of work. Search[Leonid Levin] Leonid Anatolievich Levin is a Soviet-American mathematician and computer scientist.
Leonid Levin is a mathematician and computer scientist. So Pavel Urysohn and Leonid Levin have the same type of work. Finish[yes]

 

ReAct

Ausgaben Reflexionen handeln
Wie hoch ist die Region, in die sich der östliche Teil des orogenen Gürtels von Colorado erstreckt? Ich muss den orogenen Gürtel von Colorado durchsuchen, das Gebiet finden, in das der östliche Abschnitt hineinreicht, und dann den Höhenbereich dieses Gebiets ermitteln. Suche [Colorado orogenic belt]
Der Ostteil wird nicht erwähnt. Ich muss also den Ostteil nachschlagen. Suche nach [Östlicher Sektor]
Der östliche Teil des orogenen Gürtels von Colorado reicht bis in die High Plains. Ich muss also die High Plains durchsuchen und ihren Höhenbereich finden. Suche [High Plains]
Die Höhe der High Plains steigt von etwa 1.800 Fuß auf 7.000 Fuß an, also lautet die Antwort 1.800 Fuß bis 7.000 Fuß. Fertigstellung [1800 ft bis 7000 ft]
Die Musikerin und Satirikerin Allie Goertz schrieb einen Song über die Figur Milhouse in der Serie "Die Simpsons". Nach wem hat Matt Groening Milhouse benannt? Die Frage ist vereinfacht gesagt, nach wem die Figur Milhouse in "Die Simpsons" benannt ist. Ich muss nur nach Milhouse suchen und herausfinden, nach wem er benannt ist. Suche [Milhouse]
In dem Absatz steht nicht, nach wem Milhouse benannt ist, also kann ich vielleicht "benannt nach" nachschlagen. Finde [benannt nach...]
Milhouse ist nach dem US-Präsidenten Richard Nixon benannt, die Antwort lautet also Richard Nixon. Beendet [Richard Nixon]
Handelt der Dokumentarfilm von der finnischen Rockband Adam Clayton Powell oder von The Saimaa Gesture? Ich muss nach Adam Clayton Powell und The Saimaa Gesture suchen und herausfinden, welcher Dokumentarfilm über eine finnische Rockband handelt. Suche [Adam Clayton Powell]
Um den Dokumentarfilm zu finden, würde ich nach Adam Clayton Powell (Film) suchen. Suche [Adam Clayton Powell (Film)]
Adam Clayton Powell (Film) ist ein Dokumentarfilm über einen afro-amerikanischen Politiker, nicht über eine finnische Rockband. Ein Dokumentarfilm über eine finnische Rockband müsste also The Saimaa Gesture sein. Beenden [Die Saimaa-Geste]
Welche Berufe haben Nicholas Ray und Elia Kazan gemeinsam? Ich muss nach Nicholas Ray und Elia Kazan suchen, ihre Berufe herausfinden und dann herausfinden, welche Berufe sie gemeinsam haben. Suche [Nicholas Ray]
Nicholas Rays Beruf war Regisseur, Drehbuchautor und Schauspieler. Als nächstes muss ich nach Elia Kazan suchen und seinen Beruf herausfinden. Suche [Elia Kazan]
Elia Kazan übt den Beruf des Regisseurs, Produzenten, Drehbuchautors und Schauspielers aus. Nicholas Ray und Elia Kazan haben also denselben Beruf als Regisseur, Drehbuchautor und Schauspieler. Fertigstellung [Regisseur, Drehbuchautor, Schauspieler]
Welche Zeitschrift wurde zuerst gegründet, Arthur's Magazine oder First for Women? Ich muss nach "Arthur's Magazine" und "First for Women" suchen und herausfinden, welche Zeitschrift zuerst gegründet wurde. Suche in [Arthurs Magazin].
Das Arthur's Magazine wurde 1844 gegründet. Als nächstes muss ich First for Women durchsuchen. Suche [First for Women]
First for Women wurde 1989 gegründet. 1844 (Arthur's Magazine) < 1989 (First for Women), also wurde Arthur's Magazine zuerst gegründet. Beenden [Arthurs Magazin]
Sind Pavel Urysohn und Leonid Levin für dieselbe Art von Arbeit bekannt? Ich muss nach Pavel Urysohn und Leonid Levin suchen, um herauszufinden, welche Art von Arbeit sie verrichten, und dann herausfinden, ob sie dieselben sind. Suche [Pavel Urysohn]
Pavel Urysohn ist ein Mathematiker. Als Nächstes muss ich nach Leonid Levin suchen und herausfinden, welche Art von Arbeit er macht. Suche [Leonid Levin]
Leonid Levin ist ein Mathematiker und Informatiker. Pavel Urysohn und Leonid Levin haben also dieselbe Art von Beruf. Abgeschlossen [ja]

 

C.2 Faktenextraktion und Validierungsdatensatz/FEVER

FEVER Prompts

Original
Frage: Bestimmen Sie, ob es eine Beobachtung gibt, die eine Behauptung UNTERSTÜTZT oder widerlegt, oder ob es NICHT GENÜGEND INFORMATIONEN gibt.
Claim Answer
Nikolaj Coster-Waldau worked with the Fox Broadcasting Company. SUPPORTS
Stranger Things is set in Bloomington, Indiana. REFUTES
Beautiful reached number two on the Billboard Hot 100 in 2003. NOT ENOUGH INFO

 

Original
FRAGE: Stellen Sie fest, ob es Beobachtungen gibt, die die Aussage unterstützen oder widerlegen, oder ob die Informationen unzureichend sind.
Vertretungen Lösung
Nikolaj Coster-Waldau hat mit Fox Broadcasting Co. etw. unterstützen
Stranger Things spielt in Bloomington, Indiana. Retorte
Der Song "Beautiful" erreichte 2003 Platz zwei der Billboard Hot 100. Unzureichende Informationen

 

Act
Frage: Bestimmen Sie, ob es eine Beobachtung gibt, die eine Behauptung UNTERSTÜTZT oder widerlegt, oder ob es NICHT GENÜGEND INFORMATIONEN gibt.
Claim Action Observation
Nikolaj Coster-waldau worked with the Fox Broadcasting Company.  Search[Nikolaj Coster-Waldau] Nikolaj William Coster-Waldau (born 27 July 1970) is a Danish actor and producer. He graduated from the Danish National School of Performing Arts in Copenhagen in 1993,[1] and had his breakthrough role in Denmark with the film Nightwatch (1994). He played Jaime Lannister in the HBO fantasy drama series Game of Thrones, for which he received two Primetime Emmy Award nominations for Outstanding Supporting Actor in a Drama Series.. Coster-Waldau has appeared in numerous films in his native Denmark and Scandinavia, including Headhunters (2011) and A Thousand Times Good Night (2013). In the U.S, his debut film role was in the war film Black Hawk Down (2001), playing Medal of Honor recipient Gary Gordon.[2] He then played a detective in the short-lived Fox television series New Amsterdam (2008), and appeared in the 2009 Fox television film Virtuality, originally intended as a pilot.
Finish[SUPPORTS]
Stranger Things is set in Bloomington, Indiana. Search[Stranger Things] Stranger Things is an American science fiction horror drama television series created by the Duffer Brothers. Set in the 1980s, primarily in the fictional town of Hawkins, Indiana, the series centers on a number of mysteries and supernatural events occurring around the town and their impact on an ensemble of child and adult characters.
Finish[REFUTES]
Beautiful reached number two on the Billboard Hot 100 in 2003. Search[Beautiful] Konnte [Beautiful] nicht finden. Ähnlich: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (Film) ', 'Beautiful (Christina Aguilera Song)', 'Life Is Beautiful'].
Search[Beautiful (Christina Aguilera song) “Beautiful” is a song recorded by American singer Christina Aguilera for her fourth studio album, Stripped (2002).
Lookup[Billboard Hot 100] (Result 1 / 3) The song peaked at number two on the Billboard Hot 100 in the United States, where it was certified Gold for 500,000 units shipped.
Finish[NOT ENOUGH INFO]

 

Act
Problem: Feststellen, ob eine Beobachtung eine Aussage stützt oder widerlegt oder ob die Informationen unzureichend sind.
Vertretungen handeln beachten Sie
Nikolaj Coster-Waldau hat für die Fox Broadcasting Company gearbeitet. Suche [Nikolaj Coster-Waldau] Nikolaj William Coster-Waldau (geboren am 27. Juli 1970) ist ein dänischer Schauspieler und Produzent. Er machte 1993 seinen Abschluss an der Danish National Academy of Performing Arts in Kopenhagen[1] und erlangte seinen Durchbruch in Dänemark durch den Film Night Watch (1994). Für seine Darstellung des Jaime Lannister in der HBO-Fantasyserie Game of Thrones erhielt er zwei Primetime-Emmy-Award-Nominierungen als Bester Nebendarsteller in einer Dramaserie.Coster-Waldau hat in seinem Heimatland Dänemark und in Skandinavien in zahlreichen Filmen mitgewirkt, darunter Headhunters (2011) und A Thousand Times Goodnight (2013). In den Vereinigten Staaten war seine erste Filmrolle die des mit der Ehrenmedaille ausgezeichneten Gary Gordon in dem Kriegsfilm Black Hawk Down (2001).[2] Er spielte auch einen Detektiv in der kurzlebigen Fox-Fernsehserie New Amsterdam (2008) und trat 2009 in dem Fox-Fernsehfilm Virtua Fighter auf, der ursprünglich als Pilotfolge gedacht war.
Erledigt [unterstützt]
Stranger Things spielt in Bloomington, Indiana. Suche [Stranger Things] Stranger Things ist eine amerikanische Science-Fiction-Horror-Dramaserie, die von den Duff-Brüdern entwickelt wurde. Die Episoden spielen in den 1980er Jahren in der fiktiven Stadt Hawkins, Indiana, und drehen sich um eine Reihe von mysteriösen und übernatürlichen Ereignissen, die sich in der Stadt ereignen, und deren Auswirkungen auf eine Gruppe von Kindern und erwachsenen Personen.
Erledigt [Gegendarstellung]
Beautiful" erreichte 2003 Platz zwei der Billboard Hot 100. Suche [Schön] Keine [Beautiful] gefunden. Ähnlich: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (Film) ', 'Beautiful (Christina Aguilera Song)', 'Life Is Beautiful'].
Suche [Beautiful (Christina Aguilera song)] "Beautiful" ist ein Song, den die amerikanische Sängerin Christina Aguilera für ihr viertes Studioalbum Stripped aufgenommen hat, das 2002 erschien.
Finden Sie [Billboard Hot 100] (Ergebnis 1 / 3) Der Song erreichte in den USA Platz zwei der Billboard Hot 100 und wurde mit 500.000 verkauften Einheiten mit Gold ausgezeichnet.
Abgeschlossen [unzureichende Informationen]

 

CoT
Frage: Bestimmen Sie, ob es eine Beobachtung gibt, die eine Behauptung UNTERSTÜTZT oder widerlegt, oder ob es NICHT GENÜGEND INFORMATIONEN gibt.
Claim Thought Answer
Nikolaj Coster-Waldau worked with the Fox Broadcasting Company. Nikolaj William Coster-Waldau appeared in the 2009 Fox television film Virtuality, so he has worked with the Fox Broadcasting Company. SUPPORTS
Stranger Things is set in Bloomington, Indiana. Stranger Things is in the fictional town of Hawkins, Indiana, not in Bloomington, Indiana. REFUTES
Beautiful reached number two on the Billboard Hot 100 in 2003. The song peaked at number two on the Billboard Hot 100 in the United States, but not sure if it was in 2003. NOT ENOUGH INFO

 

COT
Problem: Feststellen, ob es Beobachtungen gibt, die eine Behauptung stützen oder widerlegen, oder ob die Informationen unzureichend sind.
Standpunkt Reflexionen Lösung
Nikolaj Coster-Waldau hat mit Fox Broadcasting Co. Nikolai William Coster-Waldau spielte 2009 die Hauptrolle in dem Fox-Fernsehfilm Virtual Life, er hat also schon mit der Fox Broadcasting Company zusammengearbeitet. etw. unterstützen
Stranger Things findet in Bloomington, Indiana, statt. Stranger Things spielt in der fiktiven Stadt Hawkins, Indiana, und nicht in Bloomington, Indiana. Retorte
Der Song "Beautiful" erreichte 2003 Platz zwei der Billboard Hot 100. Der Song erreichte Platz zwei der Billboard Hot 100, aber es ist ungewiss, ob dies im Jahr 2003 der Fall war. Unzureichende Informationen

 

ReAct
Frage: Bestimmen Sie, ob es eine Beobachtung gibt, die eine Behauptung UNTERSTÜTZT oder widerlegt, oder ob es NICHT GENÜGEND INFORMATIONEN gibt.
Claim Thought Action Observation
Nikolaj Coster-Waldau worked with the Fox Broadcasting Company. I need to search Nikolaj Coster-Waldau and find if he has worked with the Fox Broadcasting Company. Search[Nikolaj Coster-Waldau] Nikolaj William Coster-Waldau (born 27 July 1970) is a Danish actor and producer. He graduated from the Danish National School of Performing Arts in Copenhagen in 1993,[1] and had his breakthrough role in Denmark with the film Nightwatch (1994). He played Jaime Lannister in the HBO fantasy drama series Game of Thrones, for which he received two Primetime Emmy Award nominations for Outstanding Supporting Actor in a Drama Series.. Coster-Waldau has appeared in numerous films in his native Denmark and Scandinavia, including Headhunters (2011) and A Thousand Times Good Night (2013). In the U.S, his debut film role was in the war film Black Hawk Down (2001), playing Medal of Honor recipient Gary Gordon.[2] He then played a detective in the short-lived Fox television series New Amsterdam (2008), and appeared in the 2009 Fox television film Virtuality, originally intended as a pilot.
Because he “appeared in the 2009 Fox television film Virtuality”, he should have worked with the Fox Broadcasting Company. Finish[SUPPORTS]
Stranger Things is set in Bloomington, Indiana. I should search for Stranger Things, and see if it is set in Bloomington, Indiana. Search[Stranger Things] Stranger Things is an American science fiction horror drama television series created by the Duffer Brothers. Set in the 1980s, primarily in the fictional town of Hawkins, Indiana, the series centers on a number of mysteries and supernatural events occurring around the town and their impact on an ensemble of child and adult characters.
The observation says that it is set in a “fictional town of Hawkins, Indiana”, so it is not set in Bloomington. Finish[REFUTES]
Beautiful reached number two on the Billboard Hot 100 in 2003. I need to search the song Beautiful and find if it reached number two on the Billboard Hot 100 in 2003. Search[Beautiful] Konnte [Beautiful] nicht finden. Ähnlich: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (Film) ', 'Beautiful (Christina Aguilera Song)', 'Life Is Beautiful'].
From suggestions, I should search “Beautiful (Christina Aguilera song)” to find the song. Search[Beautiful (Christina Aguilera song)] “Beautiful” is a song recorded by American singer Christina Aguilera for her fourth studio album, Stripped (2002).
It does not mention Billboard, so I need to look up “Billboard Hot 100” to find if it reached number two on it in 2003. Lookup[Billboard Hot 100] (Result 1 / 3) The song peaked at number two on the Billboard Hot 100 in the United States, where it was certified Gold for 500,000 units shipped.
It only says the song peaked at number two on the Billboard Hot 100, but not if it was in 2003. I am not sure if this claim is true or not. Finish[NOT ENOUGH INFO]

 

ReAct

FRAGE: Stellen Sie fest, ob es Beobachtungen gibt, die eine Aussage stützen oder widerlegen, oder ob die Informationen unzureichend sind.
Vertretungen Reflexionen handeln beachten Sie
Nikolaj Coster-Waldau hat mit Fox Broadcasting Co. Ich muss nach Nikolaj Coster-Waldau suchen, um herauszufinden, ob er mit Fox Broadcasting zusammengearbeitet hat. Suche [Nikolaj Coster-Waldau] Nikolaj Wilhelm Koster-Waldau (geboren am 27. Juli 1970) ist ein dänischer Schauspieler und Produzent. Er schloss 1993 sein Studium an der Danish National Academy of Performing Arts in Kopenhagen ab[1] und erzielte seinen Durchbruch in Dänemark mit dem Film Night Shift von 1994. Für seine Rolle als Jaime Lannister in der HBO-Fantasyserie Game of Thrones erhielt er zwei Nominierungen für den Primetime Emmy Award als bester Nebendarsteller in einer Dramaserie. In seiner Heimat Dänemark und Skandinavien hat Koster-Waldau in zahlreichen Filmen mitgewirkt, darunter Headhunters (2011) und A Thousand Times Goodnight (2013). In den Vereinigten Staaten war seine erste Filmrolle die des mit der Ehrenmedaille ausgezeichneten Gary Gordon in dem Kriegsfilm Black Hawk Down (2001). [2] Er spielte einen Detektiv in der Fox-Fernseh-Sketch-Show New Amsterdam (2008) und trat 2009 in dem Fox-Fernsehfilm Virtual Worlds auf, der ursprünglich als Pilotfolge produziert wurde.
Da er 2009 in dem Fox-Fernsehfilm Virtua Fighter" die Hauptrolle spielte, hätte er mit Fox Broadcasting zusammengearbeitet. Erledigt [unterstützt]
Stranger Things findet in Bloomington, Indiana, statt. Ich sollte nach Stranger Things suchen, um zu sehen, ob es in Bloomington, Indiana, spielt. Suche nach [Stranger Things]. Stranger Things ist eine amerikanische Science-Fiction-Horror-Dramaserie, die von den Duff-Brüdern entwickelt wurde. Die Serie spielt in den 1980er Jahren, hauptsächlich in der fiktiven Stadt Hawkins, Indiana, und dreht sich um eine Reihe von mysteriösen und übernatürlichen Ereignissen, die sich in der Stadt ereignen, und deren Auswirkungen auf eine Gruppe von Kindern und erwachsenen Personen.
Die Beobachtungen deuten darauf hin, dass der Film in der "fiktiven Stadt Hawkins, Indiana" spielt, also nicht in Bloomington angesiedelt ist. Erledigt [Gegendarstellung]
Beautiful erreichte 2003 Platz zwei der Billboard Hot 100. Ich muss nach dem Song Beautiful suchen und herausfinden, ob er 2003 auf Platz 2 der Billboard Hot 100 stand. Suche [Schön] ['Beautiful'] wurde nicht gefunden. Ähnlich: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (Film) ', 'Beautiful (Christina Aguilera Song)', 'Life Is Beautiful'].
Nach den Vorschlägen hätte ich nach "Christina Aguileras Song "Beautiful"" suchen müssen, um diesen Song zu finden. Suchen Sie nach [Christina Aguileras Lied "Beautiful"]. "Beautiful" ist ein Song, den die amerikanische Sängerin Christina Aguilera für ihr viertes Studioalbum Stripped aufgenommen hat, das 2002 erschien.
Billboard wird nicht erwähnt, also müsste ich die "Billboard Hot 100" nachschlagen, um zu sehen, ob es 2003 Platz 2 erreichte. Finden Sie [Billboard Hot 100] (Ergebnis 1 / 3) Der Song erreichte in den Vereinigten Staaten Platz zwei der Billboard Hot 100, wo er für 500.000 Einheiten mit Gold ausgezeichnet wurde.
Es wird nur erwähnt, dass der Song Platz 2 der Billboard Hot 100 erreicht hat, aber nicht, ob dies im Jahr 2003 war. Ich bin nicht sicher, ob diese Aussage wahr ist oder nicht. Abgeschlossen [unzureichende Informationen]

 

C.3 Einkaufen im Internet

ReAct: 大语言模型中推理和行动协同工作-11

Tabelle 6: In Kapitel 4 verwendete Aufforderungen für das Webshop-Experiment. Wir haben die Hinweise auf der linken Seite für die Aktion (Act) und die Hinweise auf der rechten Seite (mit Argumenten) für die Reaktion (ReAct) verwendet.

Anweisungen:Ich möchte eine 3oz Flasche hellen Zitrus duftenden Deodorant für empfindliche Haut für unter $ 50,00!
Act ReAct
Bewegung beachten Sie Bewegung beachten Sie
Suche nach [3oz Bright Citrus Fragrance Deodorant for Sensitive Skin] [Zurück zur Suche]
Seite 1 (Gesamtergebnisse: 50) [Weiter][B078GWRC1J]
Earth Mama's Bright Citrus Deodorant | Natürlich & Geeignet für
Empfindliche Haut, Schwangerschaft und Stillzeit mit Bio
Ringelblume Blume 3oz
$10.99[B078GTKVXY]
Earth Mama's Ginger Fresh Deodorant | Natürlich und geeignet für
Empfindliche Haut, Schwangerschaft und Stillzeit mit Bio
Ringelblume Blume 3oz
$10.99[B08KBVJ4XN]
Barrel and Oak - Aluminiumfreies Deodorant für Männer
Duft auf Basis ätherischer Öle, 24 Stunden Geruchsschutz, Zedernholz
& Patchouli-Mischungen sind sanft für empfindliche Haut (Mt Salbei.
(2,7 Unzen, 2 Flaschen)
$15.95
Suche 3oz Bright Citrus Scented Deodorant für empfindliche Haut [Zurück zur Suche]
Seite 1 (Gesamtergebnisse: 50) [Weiter][B078GWRC1J]
Earth Mama's Bright Citrus Deodorant | Natürlich & Geeignet für
Empfindliche Haut, Schwangerschaft und Stillzeit mit Bio
Ringelblume Blume 3oz
$10.99[B078GTKVXY]
Earth Mama's Ginger Fresh Deodorant | Natürlich und geeignet für
Empfindliche Haut, Schwangerschaft und Stillzeit mit Bio
Ringelblume Blume 3oz
$10.99[B08KBVJ4XN]
Barrel and Oak - Aluminiumfreies Deodorant für Männer
Duft auf Basis ätherischer Öle, 24 Stunden Geruchsschutz, Zedernholz
& Patchouli-Mischungen sind sanft für empfindliche Haut (Mt Salbei.
(2,7 Unzen, 2 Flaschen)
$15.95
Klicken Sie auf [B078GWRC1J]. Zurück zur Suche vorherige Seite
Duft [verschiedene Düfte] [leuchtende Zitrusfrüchte] [beruhigender Lavendel] Ingwer
[Erfrischend] Einfach unparfümiert]
Größe [Reiseset (4 Flaschen)][3oz (1 Flasche)][3oz (2 Flaschen)
Flaschen)]
Earth Mama's Bright Citrus Deodorant | Natürlich & Geeignet für
Empfindliche Haut, Schwangerschaft und Stillzeit mit Bio
Ringelblume Blume 3oz
Preis: $10.99
Bewertung: N.A.
[Beschreibung]
[Eigenschaften]
[Kommentar]
[Jetzt kaufen]
Gedanken [B078GWRC1J und B078GTKVXY sind nach Zitrusfrüchten duftende Deodorants für unter 50 $. Ich werde vielleicht zuerst B078GWRC1J ausprobieren]. Ja.
Klicken Sie auf [bright citrus] Sie haben auf Bright Citrus geklickt. Klicken Sie auf [B078GWRC1J]. [Zurück zur Suche][Zurück]
Duft [verschiedene Düfte] [leuchtende Zitrusfrüchte] [beruhigender Lavendel] Ingwer
[Erfrischend] Einfach unparfümiert]
Größe [Reiseset (4 Flaschen)][3oz (1 Flasche)][3oz (2 Flaschen)
Flaschen)]
Earth Mama's Bright Citrus Deodorant | Natürlich & Geeignet für
Empfindliche Haut, Schwangerschaft und Stillzeit mit Bio
Ringelblume Blume 3oz
Preis: $10.99
Bewertung: N.A.
[Beschreibung]
[Eigenschaften]
[Kommentar]
[Jetzt kaufen]
Klicken Sie auf [3 oz (1 Flasche)]. Sie haben auf 3 oz (1 Flasche) geklickt. Gedanken [Für die 3 oz Flasche Bright Citrus parfümiertes Deodorant für empfindliche Haut ist der Artikel in den Optionen 'Bright Citrus' und '3 oz (1 Flasche)' erhältlich, was so aussieht, als könnte man es kaufen]. Ja.
Klicken Sie auf [Jetzt kaufen] Klicken Sie auf [bright citrus] Sie haben auf Bright Citrus geklickt.
Klicken Sie auf [3 oz (1 Flasche)]. Sie haben auf 3 oz (1 Flasche) geklickt.

 

C.4 ALFWORLD

Der ALFWORLD-Simulator, eine Umgebung mit mehr als 25.000 einzigartigen, prozedural generierten Aufgaben in realen Umgebungen wie Küchen, Wohnzimmern, Schlafzimmern und mehr.

You are in the middle of a room. Looking quickly around you, you see a cabinet
13, a cabinet 12, a cabinet 11, a cabinet 10, a cabinet 9, a cabinet 8, a cabinet
7, a cabinet 6, a cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet
1, a coffeemachine 1, a countertop 1, a diningtable 1, a drawer 1, a fridge 1, a
garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin 1, a
stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster 1.
Your task is to: put a clean lettuce in diningtable.
> go to fridge 1
The fridge 1 is closed.
> open fridge 1
You open the fridge 1. The fridge 1 is open. In it, you see a cup 3, a egg 2, a
potato 3, and a potato 2.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a
fork 2, a knife 2, a knife 1, a ladle 1, a lettuce 1, a mug 2, a mug 1, a pan 2, a
peppershaker 1, a spatula 3, a tomato 2, and a tomato 1.
> take lettuce 1 from diningtable 1
You pick up the lettuce 1 from the diningtable 1.
> go to sinkbasin 1
On the sinkbasin 1, you see a apple 2, a ladle 2, a spoon 1, and a tomato 3.
> clean lettuce 1 with sinkbasin 1
You clean the lettuce 1 using the sinkbasin 1.
> think: Now I clean a lettuce (1). Next, I need to put it in/on diningtable 1.
OK.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a fork
2, a knife 2, a knife 1, a ladle 1, a mug 2, a mug 1, a pan 2, a peppershaker 1, a
spatula 3, a tomato 2, and a tomato 1.
> put lettuce 1 in/on diningtable 1
You put the lettuce 1 in/on the diningtable 1.

Tabelle 7: Aktionstipps für die ALFWorld-Reinigungsaufgabe. Keine Ideen vorhanden.

 

Sie befinden sich in der Mitte eines Raumes. Wenn du dich schnell umsiehst, siehst du einen Schrank
13, Schrank 12, Schrank 11, Schrank 10, Schrank 9, Schrank 8, Schrank
7, Schrank 6, Schrank 5, Schrank 4, Schrank 3, Schrank 2, Schrank
1, 1 Kaffeemaschine, 1 Arbeitsplatte, 1 Esstisch, 1 Schublade, 1 Kühlschrank,
1 Behälter, 1 Mikrowelle, 3 Regale, 2 Regale, 1 Regal, 1 Spüle,
Herd 4, Herd 3, Herd 2, Herd 1 und Toaster 1.
Deine Aufgabe: Lege sauberen Salat auf den Tisch.
> Gehe zu Kühlschrank 1
Kühlschrank 1 ist geschlossen.
> Öffnen Sie den Kühlschrank 1
Du öffnest Kühlschrank 1. Kühlschrank 1 ist offen. Darin sehen Sie eine Tasse 3, ein Ei 2, eine
3 Kartoffeln, 2 Kartoffeln.
> Gehe zu Tabelle 1
Auf Tisch 1 liegen ein Apfel 1, ein Laib Brot 1, ein Buttermesser 2, eine Tasse 2, ein
Gabel 2, Messer 2, Messer 1, langstieliger Löffel 1, Salat 1, Tasse 2, Becher 1, Pfanne 2,
1 Pfefferstreuer, 3 Spatel, 2 Tomaten, 1 Tomate.
> Kopfsalat 1 aus Tabelle 1
Sie nehmen den Salat 1 von Tisch 1.
> Gehe zu Senke 1
Auf der Spüle 1 sind ein Apfel 2, ein langstieliger Löffel 2, ein Löffel 1 und eine Tomate 3 zu sehen.
> 1 Salatwaschmaschine, 1 mit Waschbecken
Sie benutzen Waschbecken 1, um Salat 1 zu waschen.
> Überlege: Jetzt wasche ich einen Kopfsalat (1). Dann muss ich ihn in/auf Tisch 1 legen.
Ja.
> Gehe zu Tabelle 1
Auf Tisch 1 sind zu sehen: Apfel 1, Brot 1, Buttermesser 2, Tasse 2, Gabel
2, Messer 2, Messer 1, langstieliger Löffel 1, Tasse 2, Becher 1, Pfanne 2, Pfefferstreuer 1,
3 Spatel, 2 Tomaten, 1 Tomate.
> Legen Sie Salat 1 in/auf Tisch 1
Sie legen den Kopfsalat 1 auf/in Tisch 1.

 

You are in the middle of a room. Looking quickly around you, you see a cabinet
13, a cabinet 12, a cabinet 11, a cabinet 10, a cabinet 9, a cabinet 8, a cabinet
7, a cabinet 6, a cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet
1, a coffeemachine 1, a countertop 1, a diningtable 1, a drawer 1, a fridge 1, a
garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin 1, a
stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster 1.
Your task is to: put a clean lettuce in diningtable.
> think: To solve the task, I need to find and take a lettuce, then clean it with
sinkbasin, then put it in diningtable.
OK.
> think: First I need to find a lettuce. A lettuce is more likely to appear in
fridge (1), diningtable (1), sinkbasin (1), stoveburner (1-3), cabinet (1-13). I
can check one by one, starting with fridge 1.
OK.
> go to fridge 1
The fridge 1 is closed.
> open fridge 1
You open the fridge 1. The fridge 1 is open. In it, you see a cup 3, a egg 2, a
potato 3, and a potato 2.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a
fork 2, a knife 2, a knife 1, a ladle 1, a lettuce 1, a mug 2, a mug 1, a pan 2, a
peppershaker 1, a spatula 3, a tomato 2, and a tomato 1.
> think: Now I find a lettuce (1). Next, I need to take it.
OK.
> take lettuce 1 from diningtable 1
You pick up the lettuce 1 from the diningtable 1.
> think: Now I take a lettuce (1). Next, I need to go to sinkbasin (1) and clean
it.
OK.
> go to sinkbasin 1
On the sinkbasin 1, you see a apple 2, a ladle 2, a spoon 1, and a tomato 3.
> clean lettuce 1 with sinkbasin 1
You clean the lettuce 1 using the sinkbasin 1.
> think: Now I clean a lettuce (1). Next, I need to put it in/on diningtable 1.
OK.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a fork
2, a knife 2, a knife 1, a ladle 1, a mug 2, a mug 1, a pan 2, a peppershaker 1, a
spatula 3, a tomato 2, and a tomato 1.
> put lettuce 1 in/on diningtable 1
You put the lettuce 1 in/on the diningtable 1.

Tabelle 8: ReAct-Aktionswarnungen für die ALFWorld-Reinigungsaufgabe.

 

Sie befinden sich in der Mitte eines Raumes. Wenn Sie sich schnell umschauen, sehen Sie einen Schrank 13, einen Schrank 12, einen Schrank 11, einen Schrank 10, einen Schrank 9, einen Schrank 8, einen Schrank 7, einen Schrank 6, einen Schrank 5, einen Schrank 4, einen Schrank 3, einen Schrank 2 und einen Schrank 1, eine Kaffeemaschine 1, eine Arbeitsplatte 1, einen Esstisch 1, eine Kommode 1, einen Kühlschrank 1 und einen Mülleimer 1, eine Mikrowelle 1, ein Regal 3, ein Regal 2, ein Regal 1, ein Waschbecken 1, ein Kochfeld 4, ein Kochfeld 3, ein Kochfeld 2, ein Kochfeld 1 und ein Toaster 1.
Ihre Aufgabe: Legen Sie einen sauberen Kopfsalat auf den Tisch.
> Überlege: Um diese Aufgabe zu lösen, muss ich einen Salat finden und nehmen, ihn dann in der Spüle waschen und ihn schließlich auf den Tisch legen.
Ja.
> Überlege: Zuerst muss ich einen Salat finden. Der Salat befindet sich wahrscheinlich im Kühlschrank (1), auf dem Esstisch (1), in der Spüle (1), auf der Herdplatte (1-3) und in den Schränken (1-13). Ich kann die Schränke nacheinander überprüfen, beginnend mit Kühlschrank 1.
Ja.
> Zum Kühlschrank gehen 1
Kühlschrank 1 ist geschlossen.
> Kühlschrank 1 öffnen
Du öffnest Kühlschrank 1. Der Kühlschrank 1 ist jetzt offen. Darin siehst du eine Tasse 3, ein Ei 2, eine Kartoffel 3 und eine Kartoffel 2.
> Gehe zu Tabelle 1
Auf Tisch 1 liegen ein Apfel 1, ein Laib Brot 1, ein Buttermesser 2, eine Tasse 2, eine Gabel 2, ein Messer 2, ein Messer 1, ein Löffel 1, ein Spatel 1, ein Salat 1, ein Becher 2, ein Becher 1, eine Pfanne 2, ein Pfefferstreuer 1, ein Löffel 3, eine Tomate 2 und eine Tomate 1.
> Überlege: Jetzt habe ich einen Salat gefunden (1). Als nächstes muss ich ihn wegbringen.
Ja.
> Nimm den Salat 1 aus Tabelle 1
Sie nehmen den Salat 1 von Tisch 1.
> Denken Sie: Jetzt habe ich einen Salat genommen (1). Als nächstes muss ich zum Waschbecken gehen (1), um ihn zu waschen.
Ja.
> Zum Waschbecken 1 gehen
Auf dem Waschbecken 1 liegen ein Apfel 2, ein Spatel 2, ein Löffel 1 und eine Tomate 3.
> Waschen von Salat in einem Waschbecken 1 1
Du hast Salat 1 in Waschbecken 1 gewaschen.
> Überlege: Jetzt habe ich einen Salat gereinigt (1). Als nächstes muss ich ihn auf den /up-Tisch legen.
Ja.
> Gehe zu Tabelle 1
Auf Tisch 1 liegen ein Apfel 1, ein Laib Brot 1, ein Buttermesser 2, eine Tasse 2, eine Gabel 2, ein Messer 2, ein Messer 1, ein Löffel 1, ein Becher 2, ein Becher 1, eine Pfanne 2, ein Pfefferstreuer 1, ein Löffel 3, eine Tomate 2 und eine Tomate 1.
> Salat 1 auf den Tisch legen
Sie legen den Salat 1 auf Tisch 1.

 

You are in the middle of a room. Looking quickly around you, you see a cabinet
13, a cabinet 12, a cabinet 11, a cabinet 10, a cabinet 9, a cabinet 8, a cabinet
7, a cabinet 6, a cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet
1, a coffeemachine 1, a countertop 1, a diningtable 1, a drawer 1, a fridge 1, a
garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin 1, a
stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster 1.
Your task is to: put a clean lettuce in diningtable.
> think: To solve the task, I need to find and take a lettuce, then clean it with
sinkbasin, then put it in diningtable.
OK.
> think: First I need to find a lettuce.
OK.
> go to fridge 1
The fridge 1 is closed.
> think: First I need to find a lettuce.
OK.
> open fridge 1
You open the fridge 1. The fridge 1 is open. In it, you see a cup 3, a egg 2, a
potato 3, and a potato 2.
> think: First I need to find a lettuce.
OK.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a
fork 2, a knife 2, a knife 1, a ladle 1, a lettuce 1, a mug 2, a mug 1, a pan 2, a
peppershaker 1, a spatula 3, a tomato 2, and a tomato 1.
> think: First I need to find a lettuce.
OK.
> take lettuce 1 from diningtable 1
You pick up the lettuce 1 from the diningtable 1.
> think: I need to clean this lettuce (1) using sinkbasin 1.
OK.
> go to sinkbasin 1
On the sinkbasin 1, you see a apple 2, a ladle 2, a spoon 1, and a tomato 3.
> think: I need to clean this lettuce (1) using sinkbasin 1.
OK.
> clean lettuce 1 with sinkbasin 1
You clean the lettuce 1 using the sinkbasin 1.
> think: I need to put this cleaned lettuce (1) in/on diningtable 1.
OK.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a fork
2, a knife 2, a knife 1, a ladle 1, a mug 2, a mug 1, a pan 2, a peppershaker 1, a
spatula 3, a tomato 2, and a tomato 1.
> think: I need to put this cleaned lettuce (1) in/on diningtable 1.
OK.
> put lettuce 1 in/on diningtable 1
You put the lettuce 1 in/on the diningtable 1.

Tabelle 9: ReAct-IM Handlungsaufforderungen für die ALFWorld Reinigungsaufgabe.

 

Sie befinden sich in der Mitte eines Raumes. Wenn Sie sich schnell umschauen, sehen Sie eine Vitrine 13, eine Vitrine 12, eine Vitrine 11, eine Vitrine 10, eine Vitrine 9, eine Vitrine 8, eine Vitrine 7, eine Vitrine 6, eine Vitrine 5, eine Vitrine 4, eine Vitrine 3, eine Vitrine 2, eine Vitrine 1, eine Kaffeemaschine 1, eine Arbeitsplatte 1, einen Esstisch 1, eine Kommode 1, einen Kühlschrank 1, einen Mülleimer 1, die eine Mikrowelle 1, ein Regal 3, ein Regal 2, ein Regal 1, eine Spüle 1, einen Kochfeldbrenner 4, einen Kochfeldbrenner 3, einen Kochfeldbrenner 2, einen Kochfeldbrenner 1 und einen Toaster 1.
Ihre Aufgabe: Legen Sie einen sauberen Kopfsalat auf den Tisch.
> Denk nach: Um diese Aufgabe zu lösen, muss ich einen Salat finden und nehmen und ihn dann im Waschbecken waschen, bevor ich ihn auf den Tisch lege.
Ja.
> Denke: Zuerst muss ich einen Kopfsalat finden.
Ja.
> Zum Kühlschrank gehen 1
Kühlschrank 1 ist geschlossen.
> Denke: Zuerst muss ich einen Kopfsalat finden.
Ja.
> Kühlschrank 1 öffnen
Du hast Kühlschrank 1 geöffnet. Kühlschrank 1 ist jetzt offen. Im Kühlschrank siehst du eine Tasse 3, ein Ei 2, eine Kartoffel 3 und eine Kartoffel 2.
> Denke: Zuerst muss ich einen Kopfsalat finden.
Ja.
> Gehe zu Tabelle 1
Auf Tisch 1 liegen ein Apfel 1, ein Laib Brot 1, ein Buttermesser 2, eine Tasse 2, eine Gabel 2, ein Messer 2, ein Messer 1, ein Löffel 1, ein Spatel 1, ein Salat 1, ein Becher 2, ein Becher 1, eine Pfanne 2, ein Pfefferstreuer 1, ein Spatel 3, eine Tomate 2 und eine Tomate 1.
> Denke: Zuerst muss ich einen Kopfsalat finden.
Ja.
> Entfernen Sie den Salat 1 aus Tabelle 1
Sie nehmen den Salat 1 von Tisch 1.
> Denken Sie: Ich muss Waschbecken 1 benutzen, um diesen Salat zu waschen (1).
Ja.
> Zum Waschbecken 1 gehen
Auf dem Waschbecken 1 liegen ein Apfel 2, ein Spatel 2, ein Löffel 1 und eine Tomate 3.
> Denken Sie: Ich muss Waschbecken 1 benutzen, um diesen Salat zu waschen (1).
Ja.
> Benutzung des Handwaschbeckens 1 Waschen des Salats 1
Du hast Waschbecken 1 benutzt, um Salat 1 zu waschen.
> DENKEN: Ich muss diesen bereits gewaschenen Salat (1) auf den Tisch legen.
Ja.
> Gehe zu Tabelle 1
Auf Tisch 1 liegen ein Apfel 1, ein Laib Brot 1, ein Buttermesser 2, eine Tasse 2, eine Gabel 2, ein Messer 2, ein Messer 1, ein Löffel 1, ein Becher 2, ein Becher 1, eine Pfanne 2, ein Pfefferstreuer 1, ein Spatel 3, eine Tomate 2 und eine Tomate 1.
> DENKEN: Ich muss diesen bereits gewaschenen Salat (1) auf den Tisch legen.
Ja.
> Legen Sie den Salat 1 auf den Tisch
Sie legen den Salat 1 auf den Tisch.

 

 

D Flugbahn

 

D.1 Flugbahn von FEVER

Wir stellen einige von ReAct, CoT und Act erzeugte Trajektorien zur Verfügung, und weiter unten finden Sie einige zufällig ausgewählte Beispiele aus dem FEVER-Entwicklungsset. Die Suchergebnisse wurden aus Platzgründen weggelassen.

 

Beispiel 2491 (Standardantwort: Widerlegung)

ReAct
Claim: Bermuda Triangle is a loosely-defined region in the Pacific Ocean.
Thought 1: I need to search Bermuda Triangle and find if it is in the Pacific Ocean.
Action 1: Search[Bermuda Triangle]
Observation 1: Reportedly haunted locations…
Thought 2: The observation says that it is in the western part of the North Atlantic
Ocean, so it is not in the Pacific Ocean.
Action 2: Finish[REFUTES]
Observation 2: Episode finished
Act
Claim: Bermuda Triangle is a loosely-defined region in the Pacific Ocean.
Action 1 : Search[Bermuda Triangle]
Observation 1 : Reportedly haunted locations:…
Action 2: Finish[REFUTES]
Observation 2: Episode finished
CoT
Claim: Bermuda Triangle is a loosely-defined region in the Pacific Ocean.
Gedanke: Gehen wir Schritt für Schritt vor: Das Bermuda-Dreieck ist eine lose definierte Region
in the Atlantic Ocean. The Pacific Ocean is not the Atlantic Ocean.
Answer: REFUTES

 

ReAct

Haftungsausschluss: Das Bermuda-Dreieck ist ein lose definiertes Gebiet im Pazifischen Ozean.

Denkanstoß 1: Ich muss das Bermuda-Dreieck suchen, um herauszufinden, ob es sich im Pazifik befindet.

Aktion 1: Suche [Bermudadreieck]

Beobachtung 1: Dies sind einige der Orte, an denen es angeblich spukt...

Überlegung 2: Die Beobachtungen zeigen, dass er sich im westlichen Teil des Nordatlantiks befindet, also nicht im Pazifik.

Aktion 2: Schlussfolgerung [widerlegt]

Beobachtung 2: Ende der Episode

Gesetz

Haftungsausschluss: Das Bermuda-Dreieck ist ein lose definiertes Gebiet im Pazifischen Ozean.

Aktion 1: Suche [Bermudadreieck]

Beobachtung 1: Dies sind einige der Orte, an denen es angeblich spukt:...

Aktion 2: Schlussfolgerung [widerlegt]

Beobachtung 2: Ende der Episode

CoT (Denkprozess)

Haftungsausschluss: Das Bermuda-Dreieck ist ein lose definiertes Gebiet im Pazifischen Ozean.

Denken Sie: Gehen wir einen Schritt nach dem anderen. Das Bermuda-Dreieck ist ein grob definiertes Gebiet im Atlantik. Der Pazifische Ozean ist nicht der Atlantische Ozean.

Antwort: widerlegen

Durch diesen Prozess des logischen Denkens können wir zu dem Schluss kommen, dass das Bermuda-Dreieck tatsächlich im Atlantischen Ozean und nicht im Pazifischen Ozean liegt. Diese Schlussfolgerung beruht auf der Kenntnis und Bestätigung der geografischen Lage des Bermudadreiecks. Das Bermuda-Dreieck ist bekannt für sein mysteriöses Verschwinden und seine Legenden, aber die Genauigkeit der geografischen Lage ist ebenso wichtig, um Fehlinformationen und Verwirrung zu vermeiden.

 

Beispiel 5908 (Standardantwort: Unterstützung)

ReAct
Claim: Princess Mononoke is a film.
Thought 1: I need to search Princess Mononoke and find if it is a film.
Action 1: Search[Princess Mononoke]
Observation 1: Princess Mononoke …
Thought 2: From the observation, it says that Princess Mononoke is a film.
Action 2: Finish[SUPPORTS]
Observation 2: Episode finished
Act
Claim: Princess Mononoke is a film.
Action 1: Search[Princess Mononoke]
Observation 1: Princess Mononoke …
Action 2: Finish[SUPPORTS]
Observation 2: Episode finished
CoT
Claim: Princess Mononoke is a film.
Gedanke: Gehen wir Schritt für Schritt vor: Prinzessin Mononoke ist ein Film, und Filme sind
films.
Answer: SUPPORTS

 

ReAct
Haftungsausschluss: Die Prinzessin von Neuzarka ist ein Film.
Idee Nr. 1: Ich muss nach "Die Prinzessin von Neuzarka" suchen, um zu sehen, ob es sich um einen Film handelt.
Aktion 1: Suche nach [Prinzessin Nuzaka]
Beobachtung #1: Die Prinzessin von Newzaca...
Idee 2: Aus der Beobachtung heraus ist Die Prinzessin von Neuzarka ein Film.
Aktion 2: Ausfüllen [Unterstützung]
Beobachtung 2: Diese Episode ist abgeschlossen
Act
Haftungsausschluss: Die Prinzessin von Neuzarka ist ein Film.
Aktion 1: Suche nach [Prinzessin Nuzaka]
Beobachtung #1: Die Prinzessin von Newzaca...
Aktion 2: Ausfüllen [Unterstützung]
Beobachtung 2: Diese Episode ist abgeschlossen
CoT
Haftungsausschluss: Die Prinzessin von Neuzarka ist ein Film.
Idee: Lasst uns einen Schritt nach dem anderen denken. Die Prinzessin von Neuzarka ist ein Film, und ein Film ist ein Film.
Antwort: Unterstützung

 

Beispiel 1951 (Standardantwort: Widerlegung)

ReAct
Claim: Soyuz was part of the American space program.
Thought 1: I need to search Soyuz and find if it was part of the American space
program.
Action 1: Search[Soyuz]
Observation 1: Soyuz is a transliteration…
Thought 2: It does not mention the American space program, so I need to search
“American space program” to find if it was part of it.
Action 2: Search[American space program]
Observation 2: The space policy…
Thought 3: It does not mention Soyuz, so I am not sure if this claim is true or not.
Action 3: Finish[NOT ENOUGH INFO]
Observation 3: Episode finished
Act
Claim: Soyuz was part of the American space program.
Action 1: Search[Soyuz]
Observation 1: Soyuz is a transliteration…
Action 2: Finish[NOT ENOUGH INFO]
Observation 2: Episode finished
CoT
Claim: Soyuz was part of the American space program.
Gedanke: Gehen wir Schritt für Schritt vor: Sojus ist ein russisches Raumschiff.
space program is NASA. NASA and Russia have worked together on the
International Space Station.
Answer: SUPPORTS

 

ReAct
Haftungsausschluss: Sojus ist Teil des US-Raumfahrtprogramms.
Gedanke 1: Ich muss die Sojus durchsuchen, um herauszufinden, ob sie Teil des US-Raumfahrtprogramms ist.
Aktion 1: Suche nach [Sojus]
Beobachtung 1: Sojus ist ein phonetisches Wort...
Überlegung 2: Das US-Raumfahrtprogramm wird nicht erwähnt, so dass ich nach "US-Raumfahrtprogramm" suchen muss, um herauszufinden, ob es Teil davon ist.
Aktion 2: Suche [US-Raumfahrtprogramm]
Beobachtung 2: Raumfahrtpolitik...
Gedanke 3: Die Sojus wird nicht erwähnt, daher bin ich mir nicht sicher, ob diese Aussage stimmt oder nicht.
Aktion 3: Schlussfolgerung [unzureichende Informationen]
Beobachtung 3: Abschluss
Act
Haftungsausschluss: Sojus ist Teil des US-Raumfahrtprogramms.
Aktion 1: Suche nach [Sojus]
Beobachtung 1: Sojus ist ein phonetisches Wort...
Aktion 2: Schließen [unzureichende Informationen]
Beobachtung 2: Abschluss
CoT
Haftungsausschluss: Sojus ist Teil des US-Raumfahrtprogramms.
Denke: Lass uns Schritt für Schritt denken. Die Sojus ist ein russisches Raumschiff. Das Raumfahrtprogramm der USA ist die NASA. Die NASA und Russland arbeiten bei der Internationalen Raumstation zusammen.
Antwort: Unterstützung

 

Beispiel 3208 (Standardantwort: Widerlegung)

ReAct
Claim: Reign Over Me is an American film made in 2010.
Thought 1: I need to search for Reign Over Me and find if it is an American film made
in 2010.
Action 1: Search[Reign Over Me]
Observation 1: Reign Over Me …
Thought 2: The observation says that it is an American film made in 2007, so it is not
made in 2010.
Action 2: Finish[REFUTES]
Observation 2: Episode finished
Act
Claim: Reign Over Me is an American film made in 2010.
Action 1: Search[Reign Over Me]
Action 2: Finish[SUPPORTS]
Observation 2: Episode finished
CoT
Claim: Reign Over Me is an American film made in 2010.
Überlegen wir Schritt für Schritt: Erstens, ist Reign Over Me ein amerikanischer Film? Ja, das ist er.
it is. Second, was it made in 2010? Yes, it was.
Answer: SUPPORTS

 

ReAct
Haftungsausschluss: Reign Over Me ist ein amerikanischer Film aus dem Jahr 2010.
Idee 1: Ich muss nach "Reign Over Me" suchen, um festzustellen, ob es sich um einen amerikanischen Film aus dem Jahr 2010 handelt.
Aktion 1: Suche [Herrschaft über mich]
Beobachtung 1: 'Reign Over Me'...
Idee 2: Die Beobachtungen zeigen, dass es sich um einen amerikanischen Film aus dem Jahr 2007 handelt, der also nicht im Jahr 2010 gedreht wurde.
Aktion 2: Schlussfolgerung [widerlegt]
Beobachtung 2: Abschluss
Act
Haftungsausschluss: Reign Over Me ist ein amerikanischer Film aus dem Jahr 2010.
Aktion 1: Suche [Herrschaft über mich]
Aktion 2: Schlussfolgerung [Unterstützung]
Beobachtung 2: Abschluss
CoT
Haftungsausschluss: Reign Over Me ist ein amerikanischer Film aus dem Jahr 2010.
Gedanken: Gehen wir einen Schritt nach dem anderen. Erstens: Ist Reign Over Me ein amerikanischer Film? Ja, das ist er. Zweitens: Wurde er im Jahr 2010 gedreht? Ja, wurde er.
Antwort: Unterstützung

 

D.2 ALFWORLD-Flugbahnen

Wir stellen Beispieltrajektorien für ReAct, Act und ReAct-IM in demselben ALFWorld-Spiel Pick_clean_then_place_in_recep-Knife-None-CounterTop-10/ trial_T20190909_110445_675754 zur Verfügung.

 

D.2.1 REACT-Bewegungsabläufe

ReAct war in der Lage, das Messer ordnungsgemäß zu lokalisieren, es zu reinigen und dann auf die Arbeitsplatte zu legen.

 

ReAct ALFWorld trajectory

You are in the middle of a room. Looking quickly around you, you see a cabinet 6, a
cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet 1, a coffeemachine 1, a
countertop 3, a countertop 2, a countertop 1, a drawer 3, a drawer 2, a drawer 1, a
fridge 1, a garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin
1, a stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster
1.
Your task is to: put a clean knife in countertop.
> think: To solve the task, I need to find and take a knife, then clean it with
sinkbasin, then put it in countertop.
OK.
> think: First I need to find a knife. A knife is more likely to appear in cabinet
(1-6), drawer (1-3), countertop (1-3), fridge (1), garbagecan (1), shelf (1-3),
sinkbasin (1), stoveburner (1-4), toaster (1). I can check one by one, starting with
cabinet 1.
OK.
> go to cabinet 1
On the cabinet 1, you see a bowl 1.
> go to cabinet 2
The cabinet 2 is closed.
> go to cabinet 3
On the cabinet 3, you see a glassbottle 1.
> go to cabinet 4
On the cabinet 4, you see a mug 1.
> go to cabinet 5
The cabinet 5 is closed.
> go to cabinet 6
The cabinet 6 is closed.
> go to drawer 1
The drawer 1 is closed.
> go to drawer 2
The drawer 2 is closed.
> go to drawer 3
The drawer 3 is closed.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> go to countertop 2
On the countertop 2, you see a cup 1, a dishsponge 1, a glassbottle 3, a knife 1, a
plate 2, a potato 3, and a statue 1.
> think: Now I find a knife (1). Next, I need to take it.
OK.
> take knife 1 from countertop 2
You pick up the knife 1 from the countertop 2.
> think: Now I take a knife (1). Next, I need to go to sinkbasin (1) and clean it.
OK.
> go to sinkbasin 1
On the sinkbasin 1, you see a fork 3, a lettuce 3, and a spatula 2.
> clean knife 1 with sinkbasin 1
You clean the knife 1 using the sinkbasin 1.
> think: Now I clean a knife (1). Next, I need to put it in/on countertop 1.
OK.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> put knife 1 in/on countertop 1
You put the knife 1 in/on the countertop 1.

 

Sie befinden sich in der Mitte des Raumes. Wenn Sie sich schnell umschauen, sehen Sie einen Schrank 6, einen Schrank 5, einen Schrank 4, einen Schrank 3, einen Schrank 2, einen Schrank 1, eine Kaffeemaschine 1, eine Tischplatte 3, eine Tischplatte 2, eine Tischplatte 1, eine Schublade 3, eine Schublade 2, eine Schublade 1, einen Kühlschrank 1, einen Mülleimer 1, eine Mikrowelle 1, ein Regal 3, ein Regal 2, ein Regal 1, eine Spüle 1, ein Kochfeld 4, ein Kochfeld 3, ein Kochfeld 2, ein Kochfeld 1 und ein Toaster 1.
Ihre Aufgabe: Legen Sie ein sauberes Messer auf den Tisch.
> Denke: Um die Aufgabe zu lösen, muss ich ein Messer finden und aufheben, es dann im Spülbecken reinigen und auf den Tisch legen.
Ja.
> Überlege: Zuerst muss ich ein Messer finden. Ein Messer befindet sich eher in einem Schrank (1-6), einer Schublade (1-3), einer Tischplatte (1-3), einem Kühlschrank (1), einem Mülleimer (1), einem Regal (1-3), einer Spüle (1), einer Herdplatte (1-4), einem Toaster (1). Ich kann sie nacheinander überprüfen, beginnend mit Schrank 1.
Ja.
> Gehe zu Kabinett 1
Auf Schrank 1 sehen Sie eine Schale 1.
> Gehe zu Kabinett 2
Kabinett 2 ist geschlossen.
> Zum Kabinett 3 gehen
Im Schrank 3 sehen Sie eine Glasflasche 1.
> Zum Kabinett 4 gehen
Auf Schrank 4 sehen Sie einen Becher 1.
> Zum Kabinett 5 gehen
Kabinett 5 ist geschlossen.
> Zum Kabinett 6 gehen
Kabinett 6 ist geschlossen.
> Gehe zu Schublade 1
Schublade 1 ist geschlossen.
> Gehe zu Schublade 2
Schublade 2 ist geschlossen.
> Gehe zu Schublade 3
Schublade 3 ist geschlossen.
> Gehe zu Desktop 1
Auf der Tischplatte 1 befinden sich ein Salatkopf 2, eine Tasse 2, ein Salzstreuer mit schwarzem Pfeffer 1 und zwei Löffel 2.
> Gehe zu Desktop 2
Auf der Tischplatte 2 stehen eine Tasse 1, ein Pinseltellerschaf 1, eine Glasflasche 3, ein Messer 1, ein Teller 2, drei Kartoffeln 3 und eine Statue 1.
> Überlege: Jetzt habe ich ein Messer gefunden (1). Als nächstes muss ich es mitnehmen.
Ja.
> Messer 1 von Tisch 2 nehmen
Du nimmst Messer 1 von Tisch 2.
> Denken Sie: Jetzt nehme ich ein Messer (1) in die Hand. Als nächstes muss ich zum Waschbecken (1) gehen, um es zu reinigen.
Ja.
> Gehe zu Senke 1
Über der Spüle 1 sehen Sie eine Gabel 3, einen Salatkopf 3 und einen Wenderspatel 2.
> Reinigungsmesser 1 mit Spüle 1
Sie benutzen Spüle 1, um Messer 1 zu reinigen.
> Überlege: Jetzt habe ich ein Messer gereinigt (1). Als nächstes muss ich es auf/in Tisch 1 legen.
Ja.
> Gehe zu Desktop 1
Auf der Tischplatte 1 befinden sich ein Salatkopf 2, eine Tasse 2, ein Salzstreuer mit schwarzem Pfeffer 1 und zwei Löffel 2.
> Messer 1 auf/in Tisch 1 legen
Sie legen das Messer 1 auf/in die Tischplatte 1.

 

D.2.2 ACT-Trajektorien

Das Aktionsmodell findet das Messer zwar richtig, versucht aber, es mit Hilfe des Waschbeckens zu reinigen, bevor es tatsächlich zum Waschbecken geht. Von da an ist das Modell nicht mehr in der Lage, sich zu erholen und verfällt in die Wiederholung der gleichen Befehlsfolge. Bei der Verwendung des ReAct-Modells erkennt die bereits vorhandene Idee, dass das Messer entwendet wurde, und das nächste Teilziel besteht darin, zum Waschbecken zu gehen, um es zu reinigen.

D.2.3 REACT-IM Flugbahn

Das ReAct-IM war in der Lage, das Messer korrekt zu lokalisieren, konnte es aber auch nicht reinigen. Dann gerät der LLM in Schwierigkeiten, wenn er versucht, dieses Messer auf den Tresen zu legen. Ein mögliches Problem ist die falsche Vorstellung: Ich muss ein sauberes Messer finden. Dies scheint den LLM zu der Annahme verleitet zu haben, das Messer sei bereits gereinigt worden. In ReAct wird diese Reihe von Teilzielen speziell durch jede Idee erfasst.

 

D.3 WEBSHOP Flugbahn

Anweisungen:Kaufen Sie mir eine Sechzehnerpackung gefriergetrocknete Bananenchips mit Apfel-Zimt-Geschmack für weniger als $50,00

ReAct: 大语言模型中推理和行动协同工作-12

Tabelle 10: Beispielhafte Webshop-Trajektorien, die von Act und ReAct vorhergesagt werden. Im Gegensatz zu Act verwendet ReAct Inferenz, um Produkte zu finden, die alle Zielattribute erfüllen.

 

 

E Weitere Analysen

 

E.1 Analyse der Erfolgs- und Misserfolgsmodi

Wir geben einige Beispiele, die den in Abschnitt 3.3 beschriebenen Erfolgs- und Fehlermusteranalysen entsprechen. Suchergebnisse und nicht-repräsentative Schritte wurden aus Platzgründen weggelassen.

 

Erfolg: Echt positiv

ReAct
Question: Author David Chanoff has collaborated with a U.S. Navy admiral who served as
the ambassador to the United Kingdom under which President?
Thought 1: I need to search David Chanoff and find the U.S. Navy admiral he
collaborated with.
Action 1: Search[David Chanoff]
Observation 1: David Chanoff is a noted author…
Action 2: Search[William J. Crowe]
Observation 2: William J. Crowe is…
Thought 3: William J. Crowe served as the ambassador to the United Kingdom under
President Bill Clinton. So the answer is Bill Clinton.
Action 3: Finish[Bill Clinton]
Observation 3: Episode finished
CoT
Question: What was the name of the team that represented an Arizona university in
the conference that covers a broad expanse of the western United States,
including Arizona, California, and New Mexico?
Gedanke: Denken wir Schritt für Schritt: Der Name der Mannschaft, die eine Arizona
university in the conference that covers a broad expanse of the western
United States, including Arizona, California, and New Mexico is Arizona
State Sun Devils.
Answer: Arizona State Sun Devils

 

ReAct
FRAGE: Der Autor David Charnoff arbeitete mit einem Admiral der US-Marine zusammen, der unter welchem Präsidenten britischer Botschafter war?
Reflexion 1: Ich muss David Charnoff nachschlagen und herausfinden, mit welchen Admirälen der US Navy er zusammengearbeitet hat.
Aktion 1: Suche [David Charnoff]
Beobachtung 1: David Charnoff ist ein bekannter Autor...
Aktion 2: Suche [William J. Crowe]
Beobachtung 2: William J. Crowe ist...
Denke 3: William J. Crowe war der britische Botschafter während der Präsidentschaft von Bill Clinton. Die Antwort lautet also Bill Clinton.
Aktion 3: Schlussfolgerung [Bill Clinton]
Beobachtung 3: Fertigstellung
CoT
FRAGE: Welches Team, das eine Universität in Arizona vertritt, nahm an einer Konferenz teil, die ein großes Gebiet im Westen der Vereinigten Staaten abdeckte, darunter Arizona, Kalifornien und New Mexico?
Ein Denkanstoß: Gehen wir Schritt für Schritt vor. In einer Konferenz, die sich über ein großes Gebiet im Westen der Vereinigten Staaten erstreckt, darunter Arizona, Kalifornien und New Mexico, ist das Team, das eine Universität in Arizona vertritt, die Arizona State University Sun Devils.
In reply to Arizona State University Sun Devils

 

Vorhersagefehler/Erfolg: Falsch positiv

ReAct
Question: Did the board game San Marco or About Time come out first?
Thought 1: I need to search San Marco and About Time, and find which came out first.
Action 1: Search[San Marco]
Observation 1: San Marco is one of the … The was built in venice.
Thought 2: San Marco is a sestiere of Venice. I need to search About Time next.
Action 2: Search[About Time]
Observation 2: Could not find [About Time]. Similar: […].
Thought 3: About Time is a 2013 film. So San Marco came out first.
Action 3: Finish[San Marco]
Observation 3: Episode finished
CoT
Question: Was Vanderbilt University or Emory University founded first?
Gedanke: Gehen wir Schritt für Schritt vor: Die Vanderbilt University wurde 1873 gegründet.
University was founded in 1836. 1873 (Vanderbilt University) > 1836 (Emory
University), so Vanderbilt University was founded first.
Answer: Emory University

 

ReAct
FRAGE: Welches der beiden Brettspiele, St Mark's oder About Time, kam zuerst heraus?
Gedanke 1: Ich muss herausfinden, welches Spiel zuerst veröffentlicht wird, St Mark's oder About Time.
Aktion 1: Suche [San Marco]
Beobachtung 1: Die Markuskirche wurde in Venedig gebaut.
Denke 2: San Marco ist ein Stadtteil von Venedig. Als Nächstes muss ich About Time suchen
Aktion 2: Suche [pünktlich]
Beobachtung 2: Konnte [über die Zeit] nicht finden. Stattdessen fand es [...].
Gedanke 3: About Time war ein Film, der 2013 veröffentlicht wurde, also hätte St. Mark's die erste Veröffentlichung sein müssen.
Aktion 3: Abschluss der Suche [San Marco]
Beobachtung 3: Ende des Mandats
CoT
F: Was wurde zuerst gegründet, Vanderbilt oder Emory?
Überlegungen: Erstens wurde die Vanderbilt University 1873 und die Emory University 1836 gegründet; in chronologischer Reihenfolge ist Vanderbilt (1873) später als Emory (1836), was bedeutet, dass Emory früher gegründet wurde.
Antwort: zuerst die Emory-Universität.

 

Fehlschlag: Begründungsfehler / Failure: Reasoning error (Fehlschlag: Begründungsfehler)

ReAct
Question: What was the middle name of the actress who was cast alongside Harvey
Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura
Bell Bundy, Matthew Morrison, Corey Reynolds, and Marissa Jaret Winokur in
Hairspray?
Thought 1: I need to search Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell,
Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds, and
Marissa Jaret Winokur, find the actress that was cast alongside them in
Hairspray, then find its middle name.
Action 1: Search[Harvey Fierstein]
Observation 1: Harvey Forbes Fierstein …
Thought 2: Harvey Fierstein is an actor, playwright, and screenwriter. I need to
search Linda Hart next…
Action 2: Search[Linda Hart]…
CoT
Question: Who is older Danny Green or James Worthy?
Denken wir Schritt für Schritt: Danny Green wurde 1987 geboren, James Worthy war Mitglied des Senats der Vereinigten Staaten.
born in 1961. 1987 (Danny Green) > 1961 (James Worthy), so Danny Green is
older.
Answer: Danny Green

 

ReAct
FRAGE: In Hairspray spielte sie zusammen mit Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds und Marissa Wie lautet der zweite Vorname der Schauspielerin, die mit Jaret Winokur auftrat?
Idee 1: Ich muss nach Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds und Marissa Jaret Winokur nachschlagen, die Schauspielerin herausfinden, die in dem Stück mitgespielt hat, und ihren zweiten Vornamen herausfinden.
Aktion 1: Suche [Harvey Fierstein]
Beobachtung 1: Harvey Forbes Fierstein...
Idee Nr. 2: Harvey Fierstein ist ein Schauspieler, Dramatiker und Drehbuchautor. Als nächstes müssen Sie nach Linda Hart suchen...
Aktion 2: Suche nach [Linda Hart]...

CoT
FRAGE: Wer ist älter, Danny Green oder James Worthy?
Danny Green wurde 1987 und James Worthy 1961 geboren. 1987 (Danny Green) > 1961 (James Worthy), also ist Danny Green älter.
In reply to Danny Green

 

Failure: Suchfehler / Failure: Suchfehler

ReAct
Question: What does the goddess associated with the goddess frigg consists of what
tales?
Thought 1: I need to search goddess frigg and find its associated goddess.
Action 1: Search[goddess frigg]
Beobachtung 1: Konnte die Göttin Frigg nicht finden. ähnlich: ['Frigg', 'Frigg und Freyja gemeinsam
Ursprungshypothese", "Freyja (Abschnitt Beziehung zu Frigg und anderen Göttinnen
und Figuren)", "Eir (Umleitung von Eir (Göttin))", "Baldr"].
Thought 2: I need to search Frigg instead…

 

ReAct

FRAGE: Welche Geschichte umfasst die Göttin Frigg im Zusammenhang mit der Göttin?
Idee Nr. 1: Ich muss nach der Göttin Frigg suchen und Göttinnen finden, die mit ihr verwandt sind.
Aktion 1: Suche [Göttin Frigg]
Beobachtung 1: Die Göttin Frigg konnte nicht gefunden werden. ähnlich: ['Frigg', 'Hypothese eines gemeinsamen Ursprungs von Frigg und Freyja', 'Freyja (in Bezug auf Frigg und andere Göttinnen sowie Personen)', 'Eir (umgeleitet von Eir (Göttin))', 'Baldr'].
Idee #2: Ich muss Frigg auf eine andere Art und Weise suchen...

 

Scheitern: Halluzination / Scheitern: Halluzination

CoT
Question: What was the first year a scientific journal published by an organization
located in the Bronx was published?
Gedanke: Denken wir Schritt für Schritt: Das erste Jahr, in dem eine wissenschaftliche Zeitschrift, die von
an organization located in the Bronx was published was 1916.
Answer: 1916 (Label: 1909)

 

CoT
FRAGE: In welchem Jahr veröffentlichte die in der Bronx ansässige Einrichtung erstmals eine wissenschaftliche Zeitschrift?
THINK: Wir denken Schritt für Schritt. Die erste wissenschaftliche Zeitschrift, die von der in der Bronx ansässigen Einrichtung herausgegeben wurde, erschien im Jahr 1916.
Antwort: 1916 (Etikett: 1909)

 

Misserfolg: Mehrdeutigkeit des Etiketts / Failure: Label ambiguity / Misserfolg: Mehrdeutigkeit des Etiketts

ReAct
Question: What nationality is the man who developed the dictator game?
Thought 1: I need to search dictator game, find the man who developed it, then find his
nationality.
Action 1: Search[dictator game]
Observation 1: The dictator game is a popular experimental instrument in social psychology
and economics…
Action 3: Search[Amos Tversky]
Observation 3: Amos Nathan Tversky…
Thought 4: Amos Tversky is an Israeli cognitive and mathematical psychologist. So the
man who developed the dictator game is Israeli.
Action 4: Finish[Israeli] (label: Israel-American)
CoT
Question: Kurt Fuller from Stockton, CA appeared in which American Detective Comedy
Drama television series created by Steve Franks?
Gedanke: Lassen Sie uns Schritt für Schritt denken: Kurt Fuller aus Stockton, CA, erschien in Psych.
Psych is an American Detective Comedy Drama television series created by
Steve Franks.
Answer: Psych (label: Psych is an American detective comedy-drama)

 

ReAct
Frage: Welches ist das Land des Mannes, der das "Diktatorenspiel" erfunden hat?
Denkanstoß 1: Ich muss nach "Diktatorspiel" suchen, den Erfinder finden und dann seine Nationalität herausfinden.
Aktion 1: Suche nach [Diktatorspiel]
Beobachtung 1: Das Diktatorspiel ist ein gängiges experimentelles Instrument in der Sozialpsychologie und den Wirtschaftswissenschaften ......
Aktion 3: Suche [Amos Tversky]
Uhr 3: Amos Nathan Tversky ......
Überlegung 4: Amos Tversky ist ein israelischer kognitiver und mathematischer Psychologe. Daher ist die Person, die das "Diktatorspiel" erfunden hat, Israeli.
Aktion 4: Schlussfolgerung [Israelis] (Tag-Notiz: Israel-USA)
CoT
FRAGE: In welcher amerikanischen Krimi-Comedy-Serie von Steve Frank spielte Kurt Fuller aus Stockton, Kalifornien, die Hauptrolle?
Denken: Gehen wir Schritt für Schritt vor. Kurt Fuller trat in Psych auf. Psych ist eine amerikanische Krimi-Comedy-Fernsehserie, die von Steve Frank geschaffen wurde.
Antwort: "Psych" (Anmerkung des Labels: "Psych" ist eine amerikanische Krimikomödie)

 

 

ReAct: 大语言模型中推理和行动协同工作-13

Nicht-Thesis-Teil, leicht verständlich, einfach zu sortierende Logik

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang