オリジナル:https://arxiv.org/pdf/2210.03629.pdf
リ・アクトの仕組みや適用が読んでも理解できない?をご覧ください。ReAct実装ロジック・ハンズオン"を実践例とともに紹介する。
抄録
大規模言語モデル(llm)は、言語理解や対話的意思決定のタスクにおいて素晴らしい性能を示しているが、その推論能力(例えば、思考連鎖の手がかり)と行動能力(例えば、行動計画の生成)は、主に別々のテーマとして研究されてきた。本論文では、推論軌跡とタスク固有のアクションをインターリーブ方式で生成するllmの利用を検討し、両者の相乗効果を高めることを可能にする。推論軌跡は、モデルがアクションプランを汎化、追跡、更新し、例外に対処するのに役立つ一方、アクションは外部ソース(知識ベースや環境など)と相互作用し、追加情報を収集することを可能にする。提案手法ReActは、多様な言語タスクと意思決定タスクに適用され、人間の解釈可能性と信頼性を向上させるだけでなく、その有効性が最先端のベースライン上で実証される。具体的には、質問応答(HotpotQA)と事実検証(Fever)において、ReActはシンプルなWikipedia APIと対話し、推論軌跡を持たないベースラインよりも解釈しやすい人間らしいタスク解決軌跡を生成することで、思考連鎖推論に蔓延する錯覚とエラー伝播の問題を克服する。さらに、2つの対話的意思決定ベンチマーク(ALFWorldとWebShop)において、ReActは、1つか2つの文脈例を必要とするだけで、模倣と強化学習アプローチを、それぞれ34%と10%の絶対成功率で凌駕する。
1 はじめに
人間の知能のユニークな特徴は、タスク指向の行動と言語的推論をシームレスに組み合わせる能力である。これは人間の認知において重要な役割を果たしており、ワーキングメモリーの維持だけでなく、自己調節や戦略策定に寄与していると考えられている。キッチンで料理を作ることを例にとると、2つの具体的な動作の間に、私たちは言語的推論を使って進捗状況を把握したり(「すべての食材がみじん切りになったので、鍋にお湯を沸かそう」)、異常事態に対処したり、状況に応じて計画を調整したり(「塩がないので、代わりに醤油と胡椒を使おう」)、いつ料理ができるかを認識したりすることができる。また、外部からの情報が必要な場合(「生地の下ごしらえはどうすればいい?インターネットで検索してみよう」)。また、推論をサポートしたり、質問(「今すぐ何を作ればいいのか」)に答えたりするために、行動(レシピ本を開いてレシピを読んだり、冷蔵庫を開けたり、材料を確認したり)を起こすこともある。このような「行動」は私たちにとって問題ではない。この「行動」と「推論」の密接な相乗効果によって、人間は新しいタスクを素早く学習し、それまで遭遇したことのない環境や情報の不確実性に直面しても、しっかりとした判断や推論を行うことができる。
最近の成果は、自律システムにおいて言語的推論と対話的意思決定を組み合わせる可能性を示唆している。一方では、適切に誘導された大規模言語モデル(LLM)が、算術的推論、常識的推論、記号的推論のタスクにおいて、いくつかの段階の推論を実行する能力を実証している。しかし、この「思考の連鎖」推論は静的なブラックボックスであり、モデルは内部表現を使用して思考を生成し、外界に基づいていないため、反応的に推論したり、知識を更新したりする能力が制限される。このため、推論プロセスにおいて事実誤認やエラーの伝播につながる可能性がある(図1(1b))。一方、最近の研究では、言語的事前分布を通じた行動の予測に焦点を当て、対話環境における計画と行動のために、事前に訓練された言語モデルの使用が検討されている。これらのアプローチは通常、マルチモーダル観測をテキストに変換し、言語モデルを使用してドメイン固有の行動や計画を生成し、コントローラを使用してそれらを選択または実行する。ただし、Huangら(2022b)は例外で、現在の状態に関する空間的事実を繰り返し説明するために、限定的な言語的推論を行った。このようないくつかのビルディング・ブロックと相互作用する単純な具現化タスクを越えて、一般的なタスクを解決するために推論と行動をどのように相乗的に組み合わせることができるのか、また、この組み合わせが推論や行動単独と比較して系統的な利点をもたらすことができるのかについては、これまで研究されてこなかった。

図1:(1) HotpotQA (Yang et al., 2018)の問題を解くための、(a) Standard Prompting、(b) Chain of Thought (CoT, Reasoning Only)、(c) Action Only、(d) ReAct (Reasoning + Action)の4つのヒンティング手法の比較。(2) AlfWorld (Shridhar et al., 2020b)ゲームを解くための、(a) Action Onlyと(b) ReActヒンティングアプローチの比較。どちらの領域でも、プロンプトから文脈的な例を省き、モデル(行動、思考)と環境(観察)によって生成された問題解決の軌跡のみを示す。
本稿ではReActReActはllmにタスクに関連した言語的な推論トレースとアクションを横断的に生成するよう促し、モデルが動的な推論を実行して高レベルのアクションプラン(推論されたアクション)を作成、維持、適応することを可能にする。アクションによる推論)。
本論文では、クイズ、ファクトチェック、テキストゲーム、ウェブナビゲーションという4つの異なるベンチマークにおいて、ReActと最先端のベースラインを実証的に評価する。HotPotQAとFeverにおいて、ReActは一般的なアクション生成モデルを凌駕し、モデルが相互作用できるWikipedia APIにアクセスすることで、Chain-of-Thought Reasoning (CoT)と競合する。全体として、最良のアプローチはReActとCoTの組み合わせであり、推論プロセスにおいて内部知識と外部から得た情報の両方を使用することができる。ALFWorldとWebShopでは、2つ、あるいは1つのReActプロンプトでも、10個のReActプロンプトの使用を上回ることができる。3 ∼ 105タスクインスタンスで訓練された模倣または強化学習法は、それぞれ34パーセントと10パーセントの成功率の絶対的増加をもたらした。意思決定におけるスパースで一般化された推論の重要性は、行動を起こすだけのコントロールされたベースラインに対する一貫した優位性を示すことで実証された。一般的な適用可能性とパフォーマンスの向上に加えて、推論と行動の組み合わせは、人間がモデルの内部知識に由来する情報と外部環境に由来する情報とを容易に区別することができ、また推論の軌跡を調べてモデルの行動の意思決定の基礎を理解することができるため、あらゆる領域にわたるモデルの解釈可能性、信頼性、診断可能性に貢献する。
まとめると、我々の主な貢献は以下の通りである。
(1)一般的なタスクを解決するための言語モデリングにおける協調的な推論と行動のための新しいキューベースのパラダイムであるReActの提案。
(2)サンプル数の少ない学習環境において、推論や行動生成のみを行う従来のアプローチに対するReActの優位性を実証するために、さまざまなベンチマークで広範な実験を行った。
(3)推論タスクにおける行動、および相互作用タスクにおける推論の重要性を理解するために、系統的なアブレーションと分析を提案する。
(4)キューイングされた設定におけるReActの限界(すなわち、推論と行動に対する限定されたサポート)を分析し、予備的な微調整実験を行い、ReActが追加訓練データによって改善される可能性を示す。ReActを追加タスクの訓練と操作のために拡張し、強化学習などの補完的パラダイムと組み合わせることで、大規模言語モデルの可能性をさらに引き出すことができるだろう。
2 REACT:協調的推論+行動
タスクを解決するために環境と相互作用する知的体の一般的な設定を考える。時間ステップtエージェントが環境から観測結果を受け取るot ∈ そして、ある戦略に従ってπ(at|ct) 手術を受けるat ∈ ここでct = (o1,a1,··· ,ot−1,at−1,ot) はエージェントのコンテキストである。マッピングct →7 at戦略の学習は、それが非常に暗黙的で、大量の計算を必要とする場合、困難となる可能性がある。例えば、図1(1c)のエージェントは、QAタスクを完了するための正しい最終行動(行動4)を生成することができない。これは、軌跡コンテキスト(質問、行動1-3、観察1-3)に関する複雑な推論を必要とするからである。同様に、図1(2a)のエージェントは、文脈からシンク1にコショウ入れ1が入っていないことを理解できず、幻覚行動を生成し続けている。
ReActの考え方は単純で、知的体の行動空間をAˆ=A∪L(Lは言語空間)に拡張する。言語空間における行動aˆt ∈ Lは、ここでは思考または推論トレースと呼ぶが、外部環境に影響を与えないため、観測的フィードバックにはつながらない。対照的に、思考aˆt現在の状況について推論することで、有用な情報を構成することを目指すctそしてコンテキストを更新する。ct+1 = (ct,aˆt)を使って、将来の推論や行動をサポートする。図1に示すように、タスクの目標を分解して行動計画を作成する(2b, Act 1; 1d, Thought 1)、タスクの解決に関連する常識的な知識を注入する(2b, Thought 1)、観察から重要な部分を抽出する(1d, Thoughts 2,4)、進捗を追跡して行動計画を輸送する(2b, Thought 8)、例外に対処して行動計画を調整する(1d、思考3)など。
しかし、言語空間Lは無限であるため、この拡張行動空間での学習は困難であり、強力な言語的事前分布を必要とする。本論文では、この設定において凍結された大規模言語モデルPaLM-540B(Chowdhery et al.[1]サンプル数の少ない文脈例は、タスク解決のためのドメイン固有 の行動と自由形式の言語的思考を生成するためにキューイングされた(図1 (1d), (2b))。各コンテキストの例は、タスクインスタンスを解決するために使用される、人間の行動、思考、環境観察の軌跡である(付録C参照)。推論が最も重要なタスク(図1(1))では、思考と行動を交互に生成し、タスク解の軌跡が複数の思考-行動-観察ステップから構成されるようにする。一方、多数の行動を伴う意思決定タスク(図1(2))では、思考は軌跡の最も関連性の高い位置にまばらに現れるだけでよいので、思考と行動の非同期的な発生を言語モデル自身に決定させる。
意思決定と推論機能を大規模な言語モデルに統合しているため、ReActにはいくつかのユニークな特徴がある。
A) 直感的で設計しやすい:ReActプロンプトのデザインは、人間のアノテーターが自分の行動の上に自分の考えを言葉で表現するだけなので簡単である。本論文では、特定のフォーマットの選択、シンクアラウドデザイン、サンプルの選択は使用しない。各タスクのプロンプトデザインについてはセクション3と4で詳しく説明する。
B) ユニバーサルでフレキシブル:柔軟な思考空間と思考-行為-生成のフォーマットにより、ReActは、QA、事実確認、テキストゲーム、ウェブナビゲーションなど、行動空間や推論ニーズが異なる多様なタスクに適しています。
C) 強力で堅牢なパフォーマンス:ReActは、たった1つから6つの文脈例から学習する際に、強力な汎化を示し、領域横断的に推論や行動のみのベースラインを一貫して超える。また、セクション3では、微調整を可能にした場合のさらなる利点を示し、セクション4では、キューの選択に対するReActの性能の頑健性を示す。
D) 人間と協調し、コントロールできる:ReActは、人間が推論と事実の正しさを簡単にチェックできる、解釈可能な逐次的な意思決定と推論プロセスを約束する。さらに、セクション4の図5に示すように、人間は編集を考えることによって、知的体の行動を制御したり修正したりすることもできる。
3 知識集約的推論タスク
マルチホップクイズやファクトチェックのような知識集約的な推論タスクから始める。図1(1d)に示すように、ウィキペディアAPIと相互作用することで、ReActは推論をサポートするために情報を取得することができ、また推論を使用して次に何を取得するかを決定し、推論とアクションの相乗効果を実証する。
3.1 設定
ドメイン (1)HotPotQAは、2つ以上のウィキペディア記事に対する推論を必要とするマルチホップ質問応答ベンチマークである。ENOUGH INFOとラベル付けされる。このタスクでは、モデルは入力として問題/ステートメントを受け取るだけで、サポートする文章にアクセスすることはできず、推論をサポートするために内部知識に頼るか、外部環境と相互作用して知識を取得しなければならない。
アクション・スペース 我々は、インタラクティブな情報検索をサポートするために、3種類の操作を含むシンプルなウィキペディアWeb APIを設計した:
(1) 探す [Entity]は、対応するエンティティのWikiページが存在する場合はそこから最初の5文を返し、そうでない場合はWikipedia検索エンジンから最初の5つの類似エンティティを提案する。
(2) 見つける [文字列]は、ブラウザのCtrl+F機能をシミュレートして、文字列を含むページの次の文章を返す。
(3) 果たす [answer]は、その答えで現在のタスクを完了する。アクションスペースは、正確な段落名に基づいて段落のごく一部を検索するだけであり、最先端の語彙検索やニューラル検索よりもはるかに弱い。この目的は、人間がどのようにウィキペディアと対話するかをシミュレートし、言語による明示的な推論によって検索するようモデルに強制することである。
3.2 方法論
ReAct Prompting HotpotQAとFeverに適用し、トレーニングセットからランダムに6件と3件を選択し、プロンプトのアンダーサンプルとして使用するReAct形式の軌跡を手作業で記述した。図1(d)と同様に、各軌跡は、自由形式の思考が様々な目的に使用される複数の思考-行動-観察ステップ(すなわち、密な思考)から構成される。具体的には、思考を組み合わせて問題を分解し(「xを探し、yを見つけ、zを見つける必要がある」)、ウィキペディアの観察から情報を抽出し(「xは1844年に始まった」、「その文章にはxのことが書かれていない」)、常識的な行動を行い(「xは1844年に始まった」、「その文章にはxのことが書かれていない」)、様々な目的で自由形式の思考を使用する。xはyではないので、zは......でなければならない」)、常識的な推論(「1844年<1989年」)を行う。誘導された検索再構築("多分、私はxを検索/見つけることができる")、および最終的な答えの合成("......だから答えはxです。").詳細は付録Cを参照。
Baselines ReActの軌跡を系統的に削除し、複数のベースラインキューを構築した(図1(1a-1c)の形式)。
(a)標準プロンプト/標準プロンプト(標準)、すべての思考、行動、観察をReActの軌跡から取り除く。
(b)思考連鎖プロンプティング / Chain-of-thought prompting(CoT)は、行動と観察を除去し、推論のベースラインとしてのみ機能する。推論中に21のCoT解読温度0.7で軌跡をサンプリングし、答えの大部分を使用することで、自己矛盾のないベースライン(CoT-SC)が確立され、CoTよりも一貫して成績が向上することがわかった。
(c)演技のみのプロンプト(Act)は、ReActの軌跡からアイデアを取り除くもので、WebGPTが質問に答えるためにインターネットとどのように相互作用するかにほぼ類似しているが、異なるタスクと行動空間で動作し、プロンプトではなく模倣と強化学習を使用する。
内部と外部の知識を組み合わせる / Combining Internal and External Knowledge セクション3.3で詳述するように、我々は次のことを観察している。ReActはより事実に基づいた、地に足のついた問題解決プロセスを示したのに対し、CoTは推論構造の形成はより正確であったが、幻覚を見がちであった。そこで、我々はReActとCoT-SCを統合し、以下のヒューリスティックに基づいて、もう一方の方法に切り替えるタイミングをモデルに決定させることを提案する。
a) ReAct→CoT-SCReActが所定のステップ数以内に答えを返せなかった場合、CoT-SCにフォールバックする。HotpotQAとFEVERでは、ステップ数を増やしてもReActのパフォーマンスが向上しないことが判明したため、それぞれ7ステップと5ステップに設定した。
b) CoT-SC→ReAct:: いつnCoT-SCサンプルの回答の大半は、以下のように見える。n/2つの場合(すなわち、内部的な知識が自信を持ってタスクをサポートできない可能性がある)、ReActに戻る。
微調整/ファインチューニング これは、ReAct(他のベースラインでも使用)によって生成された正解を含む3000の軌跡を使用し、入力された質問/ステートメントを条件とする軌跡をデコードするために、より小さな言語モデル(PaLM-8/62B)を微調整するものである。思考、行動、観察)。詳細は付録B.1を参照。
3.3 結果と観察
ReActは全体的にActを上回る/ReActは一貫してActを上回る 表1は、PaLM-540Bをベースモデルとし、異なるキューイング方法を用いたHotpotQAとFeverの結果である。図1(1c-d)に示すように、ReActは両タスクにおいてActを上回っており、特に最終的な答えを合成する際に、行動を導く推論の価値を実証している。ファインチューニングの結果3も、推論トレースがより多くの情報に基づいた行動のために有益であることを裏付けている。

表1:PaLM-540BによるHotpotQAとFeverのキューイング結果。
ReAct vs. CoT 一方、ReActは、発熱についてはCoTを上回り(60.9対56.3)、HotpotQAについてはCoTにやや遅れをとっている(27.4対29.4)。賛成/反対の熱狂的発言についてはわずかな差しかない可能性があり(付録D.1参照)、正確で最新の知識を得るために行動を起こすことが重要である。HotpotQAにおけるReActとCoTの行動の違いをよりよく理解するために、ReActとCoTからそれぞれ正解と不正解(EM判定)の軌跡をランダムに50例(合計200例)抽出し、その成功パターンと失敗パターンを手作業でタグ付けして表2に示した。以下は主な観察結果である。

表2:HotpotQAにおけるReActとCoTの成功モードと失敗モードの種類と、人間研究から無作為に選んだ例におけるその割合。
A) CoTにとって幻覚は深刻な問題である。成功モードでは、ReActよりはるかに高い誤報率(14%対6%)をもたらし、主な失敗モード(56%)を構成する。対照的に、ReActの問題解決の軌跡は、外部知識ベースへのアクセス能力により、より関連性が高く、事実主導で、信頼性が高い。
B) 推論、行動、観察のステップをインターリーブすることで、ReActの実用性と信頼性が高まるが、この構造的制約は推論ステップを策定する際の柔軟性を低下させる。ReActには、以前の思考や行動を再生成してしまうという、特定のエラーパターンが頻繁に発生することに注目したい。これは、モデルが次の行動について適切に推論できず、ループから飛び出してしまうため、「推論エラー」の一部として分類している。
C) ReActにとって、検索によって情報知識をうまく取り出すことは非常に重要である。非情報的な検索はエラーケースの23%を占め、モデルの推論を脱線させ、アイデアの回復と再構築を困難にした。これは、事実性と柔軟性のトレードオフであり、2つのアプローチを組み合わせた戦略を提案するきっかけとなった。
付録E.1に各成功モードと失敗モードの例を示しています。また、HotpotQAの質問の中には、回答ラベルが古いものもあることがわかりました。
ReAct+CoT-SCはLLMを促すのに最も良い結果を出した。表1に示すように、HotpotQAとFeverで最も優れたキューイング手法は、それぞれReAct→CoT-SCとCoT-SC→ReActであった。さらに、図2はCoT-SCのサンプル数を変えたときの各手法の性能を示している。2つのReAct + CoT-SC法はそれぞれのタスクにおいて優位性を持つが、サンプル数の違いにより3~5サンプルしか使用しない場合、どちらもCoT-SCを有意かつ一貫して上回る。この結果は、モデル内部の知識と推論タスク外部の知識を適切に組み合わせることの価値を示している。

図2:使用したCoT-SCサンプル数に応じて表示されたPaLM-540Bの迅速結果。
リ・アクトは微調整の面で最適なパフォーマンスを発揮する。図3は、HotpotQAにおける4つの方法(Standard、CoT、Act、ReAct)のキューイング/微調整の拡張効果を示している。PaLM-8/62Bでは、プロンプトReActはシナリオから推論し行動する学習が難しいため、4つの方法の中で最も成績が悪かった。PaLM-8Bで微調整したReActはPaLM-62Bの全てのプロンプトを上回り、PaLM-62Bで微調整したReActは540Bの全てのプロンプトを上回った。一方、PaLM8/62Bでは、StandardやCoTの微調整は、ReActやActの微調整よりも著しく成績が悪かった。前者は主に(おそらく架空の)知識事実を記憶することをモデルに教え、後者はより一般的な知識推論スキルであるウィキペディアから情報を得る(推論と)行動をモデルに教える。どのキューイング手法もまだドメイン固有の最先端技術(表1)を大幅に下回っているため、ReActの能力を発揮させるには、より多くの人間が書いたデータで微調整するのが良い方法かもしれないと考えている。

図3:ReAct(我々の手法)とベースラインを用いたHotPotQAのキューイングと微調整の拡張結果。
4 意思決定タスク
この2つのタスクは、知能が長い時間スパンで行動する必要があり、報酬がまばらであるため、知能が行動や探索を行うために効果的に推論する必要がある。
ALFWorld ALFWorld(図1(2))は、具現化ALFREDベンチマークに合わせて設計された合成テキストベースのゲームである。ALFWorldは6種類のタスクから構成され、知能はテキストアクション(例:コーヒーテーブルに行く1、ファイルを取る2、デスクランプを使う1)を通じてナビゲートし、高レベルの目標(例:デスクランプの下にあるファイルをチェックする)を達成するために模擬家族と対話することが求められる。タスクインスタンスには50以上の場所があり、解決するために50以上のステップの専門家戦略を必要とすることがあり、計画し、サブゴールを追跡するだけでなく、体系的に探索する(例えば、机のランプを見つけるためにすべてのテーブルを1つずつチェックする)ことが知能に要求される。特に、ALFWorldに組み込まれている課題の1つは、一般的な家庭用品のありそうな場所を決定する必要性である(例えば、テーブルランプはテーブル、棚、またはドレッサーにある可能性が高い)。これは、LLMが事前に訓練されたコモンセンス知識を活用するのに理想的な設定である。ReActの手掛かりとなるように、我々は各タスクタイプの訓練セットでランダムに3つの軌跡をアノテーションした。各軌跡は、(1)ゴールを分解し、(2)サブゴールの完了を追跡し、(3)次のサブゴールを決定し、(4)コモンセンス推論によってオブジェクトの位置とそれをどうするかを見つける疎なアイデアから構成される。付録C.4にALFWorldで使用したヒントを示す。Shridhar らのアプローチに従い、特定のタスク設定で 134 の未公開評価ゲームを評価した。Actのキューは、同じ軌道を使用して構築したが、アイデアなし - タスクインスタンスはトレーニングセットからランダムに選択したため、ReActにもActにも偏らない。Actのキューは同じ軌跡を使用して構築されたが、アイデアなし - 訓練セットからタスクインスタンスがランダムに選択されるため、ReActにもActにも偏らない。ベースラインとして、各タスクタイプの105個のエキスパート軌道で訓練された模倣学習知能BUTLERを使用する。
WebShop ReActは、ノイズの多い実世界の言語環境ともインタラクションできるのだろうか?我々はWebShopを研究した。WebShopは最近提案されたオンラインショッピングサイト環境であり、118万個の実世界の商品と1万2000人の人間の指示を持つ。ALFWorldとは異なり、Webshopには大量の構造化・非構造化テキスト(Amazonからクロールされた商品タイトル、説明、オプションなど)が含まれ、インテリジェンスにユーザコマンドに基づく対話を求める(例えば、「引き出し付きのナイトテーブルを探しています。ニッケル仕上げで140ドル以下であること")に基づき、ウェブインタラクション(例えば、"ナイトスタンド 引き出し "を検索し、"カラー:モダンニッケル ホワイト "や "検索に戻る "などのボタンを選択する。search"、"Color: Modern Nickel White "や "Back "などのボタンを選択する)を経て、製品を購入する。このタスクは、500のテスト指示に対して、平均スコア(全エピソードを平均した、選択された商品がカバーする必要属性の割合)と成功率(選択された商品がすべての要件を満たしたエピソードの割合)によって評価された。Actプロンプトは、検索、製品選択、オプションの選択、および購入のアクションを含むプロンプトを開発し、ReActプロンプトは、何を検索するか、いつ購入するか、どの製品オプションが指示に関連するかを決定するために追加的に推論するプロンプトを開発した。プロンプトの例については表6を、モデルの予測については付録の表10を参照。この結果を、1012個の個人注釈付き軌跡で訓練した模倣学習アプローチと、10587個の訓練指示で訓練した模倣+強化学習アプローチ(IL+RL)と比較する。
結局 ALFWorld(表3)とWebshop(表4)の両プラットフォームにおいて、ReActはActを凌駕している。ALFWorldにおいて、トップパフォーマンスのReAct実験は71%の平均成功率を達成し、これはAct(45%)とBUTLER(37%)のベスト実験を大きく上回っている。実際、最も成績の悪かったReAct実験(481 TP3T)も、両手法の最良実験を上回った。さらに、Actに対するReActの優位性は6つの対照実験にわたって持続し、相対的な性能向上は33%から90%の範囲で、平均は62%であった。定性的な観点からは、Actはターゲットをより小さなサブターゲットに正しく分解できなかったり、全く思考がない状態で環境の現在の状態を見失ったりすることがわかった。ReActとActを比較した軌跡の例は付録D.2.1と付録D.2.2にある。

表3:AlfWorldのタスク別成功率(%)。 BUTLERとBUTLERgの結果はShridhar et al.

表4:ウェブショップのスコアと成功率(SR)。 IL/IL+RLのデータはYao et al.
Webshopでは、1回限りのActヒントはILおよびIL+RLメソッドと共存することができた。スパース推論を追加することで、ReActは以前の最高の成功率から10%の絶対的な改善を達成し、大幅にパフォーマンスを向上させた。例を検討することで、ReActは命令に関連する製品や選択肢を特定する推論を行うことで、ノイズの多い観察と行動のギャップを埋める可能性が高いことがわかった(例えば、「『省スペースのリビングルーム用フットスツールスツール』について、そのアイテムには『39x18x18inch』がある。39x18x18inch "と "青 "のオプションがあり、買う価値がありそうだ」).しかし、既存の方法は、熟練した人間(表4)よりもはるかに性能が低い。熟練した人間は、商品の探索とクエリの再構築をかなり多く行うが、これは手がかりに基づく方法にとって依然として課題である。
内部推論と外部フィードバックの価値について 我々の知る限り、ReActは対話環境における推論と行動を組み合わせた閉ループシステムに適用されたLLMの最初のデモンストレーションである。おそらく最も近い先行研究は、Huangら(2022b)のInternal Monologue(IM)であり、そこでは具現化されたエージェントの行動は、同名の「内部モノローグ」によって駆動される。しかし、IMの「内部モノローグ」は、環境の状態の観察と、目標を満たすためにエージェントが果たすべきタスクに限定される。対照的に、ReActの決定推論トラッキングは柔軟で疎なため、異なるタスクに対して多様な推論タイプを誘導することができる(セクション2参照)。
ReActとIMの違いを示すため、また外部フィードバックに対する単純な反応と内部推論の重要性を強調するため、IMスタイルの濃密な外部フィードバックからなる思考パターンを用いてアブレーション実験を行った。表3に示すように、ReActはIMスタイルのプロンプト(ReAct-IM)を大きく上回り(総合的な成功は71%対53%)、6課題のうち5課題で一貫した優位性を示した。定性的には、ReAct-IMは、高度な目標分解ができないため、サブ目標の完了時期や次のサブ目標を決定する際に頻繁に誤りを犯すことが観察された。さらに、ReAct-IMの軌跡の多くは、常識的な推論の欠如により、ALFWorld環境のどこにアイテムがあるのかを判断することが困難であった。
ReAct-IMの詳細は付録B.2.に、ReAct-IMのヒント例は付録C.4.に、軌道例は付録D.2.3にある。ReAct-IMの詳細は付録B.2.に、ReAct-IMのヒント例は付録C.4.に、軌道例は付録D.2.3.にある。
5 関連作品
推論の言語モデル ラージ・ランゲージ・モデル(LLM)による推論に関する最もよく知られた研究は、おそらくチェーン・オブ・ソート(CoT)であり、LLMが問題を解決するために独自の「思考プロセス」を形成する能力を明らかにした。その後、複雑なタスクに対する最小から最大のプロンプト、ゼロショットCoT、自己無撞着推論など、いくつかのフォローアップ研究が行われている。最近、(Madaan & Yazdanbakhsh, 2022)は、CoTsの構成と構造を系統的に調査し、シンボル、スキーマ、テキストの存在がCoTsの有効性に重要であることを観察した。
他の研究は、単純なヒントを超えた、より複雑な推論アーキテクチャに拡張している。例えば、Selection-Inferenceは推論プロセスを「選択」と「推論」のステップに分け、STaRはモデル自身によって生成された正しい推論に基づいてモデルを微調整することで、推論プロセスをガイドする。推論プロセス。忠実な推論は、多段階の推論を3つのステップに分解し、それぞれのステップを専用のLMが実行する。Scratchpadのような類似のアプローチも、中間的な計算ステップでLMを微調整することにより、マルチステップ計算問題の改善を示している。
これらのアプローチとは対照的に、ReActは孤立した固定的な推論以上のことを実行し、モデルがより正確に推論し、推論を超えたタスク(対話的な意思決定など)を解決できるように、モデルのアクションとそれに対応する観察を首尾一貫した入力ストリームに統合する。
意思決定に言語モデルを使う WebGPTは、LLMを使ってウェブブラウザと対話し、ウェブページをナビゲートし、ELI5から複雑な質問に対する答えを推測します。対照的に、WebGPTは思考や推論プロセスを明示的にモデル化せず、強化学習のために高価な人間のフィードバックに依存している。ダイアログモデリングにおいては、BlenderBotやSparrowのようなシステムや、SimpleTODのようなタスク指向のダイアログシステムも、API呼び出しに関する決定を行うためにLMを学習させる。ReActとは異なり、これらは推論プロセスを明示的に考慮せず、方針学習のために高価なデータセットと人間のフィードバックセットに依存している。これに対してReActは、推論プロセスを記述するための言語を必要とするだけなので、より安価な方法でポリシーを学習することができる。
言語モデル(LLM)は、対話的で具現化された環境における計画や意思決定にも適用されつつある。この点で、ReActに最も関連しているのは、おそらくSayCanと内なる独白SayCanでは、LLMはロボットが取り得る行動を直接予測するよう促され、それが視覚環境に基づく可用性モデルによって並び替えられ、最終的な予測を行う。SayCanでは、LLMはロボットが取りうる行動を直接予測するよう促され、それが視覚的環境に基づく可用性モデルによって並び替えられ、最終的な予測を行う。インナー・モノローグは、環境から注入されるフィードバックとして実装される有名な「インナー・モノローグ」の追加によってさらに改善される。環境からのフィードバック我々の知る限り、インナー・モノローグはこのような閉ループシステムを実証した最初の作品であり、ReActはそれをベースにしている。しかし、インナー・モノローグには本当の意味でのインナー・シンキングは含まれていないと我々は主張する。また、対話的な意思決定プロセスにおいて、意味的に豊かな入力として言語を使用することは、他の場面でも成功していることが証明されている。LLMを使えば、基本的な認知メカニズムとしての言語が、相互作用や意思決定において重要な役割を果たすことがますます明らかになってきている。さらに、LLMの進歩は、Reed et al.
6 結論
ReActとは、大規模な言語モデルにおいて推論と行動を調整するための、シンプルかつ効果的な手法である。マルチホップ質問応答、事実確認、および対話的意思決定タスクに関する様々な実験を通して、我々はReActが解析可能な意思決定経路を持つ優れた性能につながることを示す。我々のアプローチは単純であるにもかかわらず、大きな行動空間における複雑なタスクは、文脈学習における入力長の制限を容易に超えてしまうため、うまく学習するためにはより多くの例を必要とする。我々はHotpotQAで微調整されたアプローチを試し、初期結果は有望であったが、より質の高い人間の注釈で学習することで、更なる性能向上が期待される。ReActがマルチタスク学習でスケールアップできるようにし、強化学習のような補完的なパラダイムと組み合わせることで、より強力なエージェントが生まれ、より多くのアプリケーションでLLMの可能性を解き放つことができるかもしれない。
A その他の結論
A.1 GPT-3実験

表5:PaLM-540BとGPT-3(text-davinci-002, greedy decoding)を用いたReActプロンプトの結果比較. HotpotQAでは、500の検証問題のサブセットをランダムに選択した。ALFWorldでは、PaLM-540Bに従って最適なヒントセットを選択し、未見の検証タスクの全134インスタンスを使用した。
GPT-3(Brownら, 2020)の追加実験を行い、異なる大規模言語モデルにおけるReActキュー性能の一般性を確認した。表5に示すように、GPT-3(text-davinci-002、greedy decoding)は、HotpotQAとALFWorldにおいて一貫してPaLM-540Bを上回った。これは、ReActキューが、異なる大規模言語モデルに対して異なるタスクで有効であることを示唆している。これらの実験のコードはhttps://react-lm.github.io/。
A.2 HotpotQAに関する最新の知識を得るためのReAct

図4: 元のラベルが古くなっている鍋クイズ問題の別の例。ReActだけが実際のウェブインタラクションと推論を組み合わせて最新の答えを得ることができた。
A.3 ALFWorldのサイクルに人間が関与するための行動修正
また、人間がReActの推論トレースを検査し、編集することを可能にする、ReActとの人間参加型ループインタラクションも調査した。図5は、第17幕で幻覚的な文章を削除し、第23幕でいくつかの手がかりを追加するだけで、ReActの行動を大幅に変更させ、これらの人間の思考編集と一致させ、タスクを成功裏に完了させることができることを示している。人間の視点から見ると、このようなタスクを解決することは、何十ものアクションを入力することから、わずか数個の思考を編集するだけになり、新しいタイプの人間と機械の共同作業が可能になる。なぜなら、人間はモデルのパラメータを変更することができず、いくつかのアクションを変更しても、モデルの残りの動作は編集されない可能性があるからである。このパラダイムはまた、Huangら(2022b)に記述されているように、ゴールやサブゴールを更新するための人間の対話を超えるものである。ReActのアイデアを編集することで、これらすべてを行うことができる一方で、タスクをより良く解決するために、モデルの内部信念、推論スタイル、または柔軟な思考空間のサポートのいずれかを変更することもできる。我々は、これがヒューマンアライメントにとってエキサイティングな方向性であると信じており、より体系的な研究を今後の課題として残している。

図5:AlfWorldでReActを使ったHCIの行動修正の例。 (a)幻覚思考(行動17)のため、ReActの軌道は失敗している。 (b)人間が2つの心(行動17、23)を編集するだけで、ReAct軌道は成功し、望ましい推論軌道と行動を生成する。
B 実験の詳細
B.1 ホットトピック・クイズの詳細を微調整する
すべての微調整に64のバッチサイズを使用。PaLM-8Bでは、ReAct法とAct法の微調整を4,000ステップ、Standard法とCoT法の微調整を2,000ステップ行った。PaLM-62Bでは、ReAct法とAct法を4,000ステップ、標準法とCoT法を1,000ステップ微調整した。その結果、ReAct法とAct法は通常、より多くのトレーニングステップ(およびより多くのトレーニングデータ)により恩恵を受けるが、標準法とCoT法はファインチューニング後すぐに劣化し始めることがわかった。
B.2 ALFWORLD インスタントスタイルの詳細
即時型アブレーション実験では、ReActで使用されたのと同じ専門家の軌跡が再注釈され、これらの軌跡は、ReAct-IMが(1)現在の目標の分解と(2)完了する必要のある現在のサブ目標のみを考慮するよう制限する、濃密な外部フィードバック思考を内部に含んでいた。具体的には、ReAct-IMには(1)サブゴールがいつ完了するかを決定する思考(2)次のサブゴールを決定する思考(3)環境内のアイテムの可能な位置を特定するために、LLMに内部で事前に訓練された知識を参照させる思考が欠けている。
C PROMPTS
C.1 ホット・トピック・クイズ
ホットなQ&Aのヒント
| Original | |
| Question | Answer |
| What’s the elevation range for the area that the eastern sector of the Colorado orogeny extends into? | 1,800 to 7,000 ft |
| Musician and satirist Allie Goertz wrote a song about “The Simpsons” character Milhouse. Who did Matt Groening name after Nixon? | Richard Nixon |
| Which documentary is about Finnish rock groups, Adam Clayton Powell, or The Saimaa Gesture? | The Saimaa Gesture |
| What profession do Nicholas Ray and Elia Kazan have in common? | Director, screenwriter, actor |
| Which magazine was started first, Arthur’s Magazine or First for Women? | Arthur’s Magazine |
| Are Pavel Urysohn and Leonid Levin known for the same type of work? | Yes |
| Original | |
| 課題 | ソリューション |
| コロラド造山帯の東部延長の標高範囲は? | 1,800~7,000フィート。 |
| ミュージシャンで風刺作家のアリー・ゴーツは、シンプソンズのキャラクター、ミルハウスについて曲を書いた。 | リチャード・ニクソン |
| フィンランドのロックバンド、アダム・クレイトン・パウエルとサイマーの行動、どちらのドキュメンタリー? | サイマー作戦 |
| ニコラス・レイとエリア・カザンの共通点は? | 監督、脚本家、俳優 |
| アーサーズ・マガジンとファースト・フォー・ウィメンズ、どちらが早く創刊された雑誌ですか? | Arthur’s Magazine |
| パヴェル・ウリゾンとレオニード・レヴィンは同じタイプの仕事で知られていますか? | 是 |
| Act | ||
| Question | Action | Observation |
| What is the elevation range for the area that the eastern sector of the Colorado orogeny extends into? | Search[Colorado orogeny] | The Colorado orogeny was an episode of mountain building (an orogeny) in Colorado and surrounding areas. |
| Lookup[eastern sector] | (Result 1 / i) The eastern sector extends into the High Plains and is called the Central Plains orogeny. | |
| Search[High Plains] | High Plains refers to one of two distinct land regions: | |
| Search[High Plains (United States)] | The High Plains are a subregion of the Great Plains. From east to west, the High Plains rise in elevation from around 1,800 to 7,000 ft (550 to 2,130 m).[3] | |
| Finish | [1,800 to 7,000 ft] | |
| Musician and satirist Allie Goertz wrote a song about the “The Simpsons” character Milhouse, who Matt Groening named after who? | Search[Milhouse] | Milhouse Mussolini Van Houten is a recurring character in the Fox animated television series The simpsons voiced by Pamela Hayden and created by Matt Groening. |
| Lookup[named after] | (Result 1 / l) Milhouse was named after U.S. president Richard Nixon, whose middle name was Milhous. | |
| Finish | [Richard Nixon] | |
| Which documentary is about Finnish rock groups, Adam clayton Powell or The Saimaa Gesture? | Search[Adam clayton Powell] | Could not find [Adam clayton Powell]. Similar: [‘Adam Clayton Powel III’, ‘Seventh Avenue (Manhattan)’, ‘Adam clayton Powell Jr. State office Building’, ‘Isabel Washington Powell’, ‘Adam Powell’, ‘Adam Clayton Powell (film)”, “Giancarlo Esposito”]. |
| Search[Adam clayton Powell (film)] | Adam clayton Powell is a 1989 American documentary film directed by Richard Kilberg. The film is about the rise and fall of influential African-American politician Adam clayton Powell Jr.[3][4] It was later aired as part of the PBs series The American Experience. | |
| Finish | [The Saimaa Gesture] | |
| What profession does Nicholas Ray and Elia Kazan have in common? | Search[Nicholas Ray] | Nicholas Ray (born Raymond Nicholas Kienzle Jr., ) August 7,1911 -June16, 1979) was an American film director, screenwriter, and actor best known for the 1955 film Rebel Without a Cause. |
| Search[Elia Kazan] | Elia Kazan was an American film and theatre director, producer, screenwriter and actor. | |
| Finish[director, screenwriter, actor] | ||
| アーサーズ・マガジンとファースト・フォー・ウィメンズ、どちらが最初に創刊された雑誌ですか? | アーサー誌】を検索 | アーサーズ・マガジン』(1844-1846)は、19世紀にフィラデルフィアで発行されたアメリカの定期刊行物。 |
| Search[First for Women] | ファースト・フォー・ウーマンは、アメリカのバウアー・メディア・グループが発行する女性誌で、1989年に創刊された[1]。 | |
| アーサー誌】を終える | ||
| Were Pavel Urysohn and Leonid Levin known for the same type of work? | Search[Pavel Urysohn] | Pavel Samuilovich Urysohn (February 3, 1898 – August 17, 1924) was a Soviet mathematician who is best known for his contributions in dimension theory. |
| Search[Leonid Levin] | Leonid Anatolievich Levin is a Soviet-American mathematician and computer scientist. | |
| Finish[yes] | ||
| Act | ||
| 課題 | ムーブメント | 鑑みる |
| コロラド造山帯の東部が広がる地域の標高範囲は? | コロラド・マウンテン・ビルディング・キャンペーン】で検索 | コロラド造山は、コロラド州とその周辺で起こった造山運動(造山運動)である。 |
| 東部セクター】を探す | (結果1 / i) 東部はハイプレインズまで広がり、中央平原造山帯として知られている。 | |
| ハイプレインズ]を検索 | ハイプレインズとは、2つの異なる地域のうちの1つを指す: | |
| ハイプレインズ(アメリカ)】で検索 | ハイ・プレインズはグレート・プレインズの小地域である。東から西へ、ハイプレインズの標高は約1,800フィート(550メートル)から7,000フィート(2,130メートル)まで上昇する。[3] | |
| 果たす | [1,800~7,000フィート]。 | |
| ミュージシャンで風刺作家のアリー・ゴーツは、シンプソンズのキャラクター、ミルハウスについて曲を書いた。 | ミルハウス】で検索 | ミルハウス・ムッソリーニ・ヴァン・ホーテン(Milhouse Mussolini Van Houten)は、パメラ・ヘイデン(Pamela Hayden)が声を演じ、マット・グルーニング(Matt Groening)が制作したFOXのテレビアニメシリーズ『ザ・シンプソンズ』の住人キャラクター。 |
| 名前付きソース]を探す | (検索結果 1 / l) ミルハウスはリチャード・ニクソン大統領にちなんで命名された。 | |
| 果たす | [Richard Nixon] | |
| アダム・クレイトン・パウエルとサイマー・ジェスチャー、どちらがフィンランドのロックバンドを題材にしたドキュメンタリー? | アダム・クレイトン・パウエル】で検索 | アダム・クレイトン・パウエル]は見つかりませんでした。Similar: ['Adam Clayton Powel III', 'Seventh Avenue (Manhattan)', 'Adam clayton Powell Jr.州庁舎', 'イザベル・ワシントン・パウエル', 'アダム・パウエル', 'アダム・クレイトン・パウエルPowell (film)', 'Giancarlo Esposito']. |
| アダム・クレイトン・パウエル(映画)】で検索 | アダム・クレイトン・パウエル』は、リチャード・キルバーグ監督による1989年のアメリカのドキュメンタリー映画。この映画は、アフリカ系アメリカ人に影響力のある政治家アダム・クレイトン・パウエル・ジュニアの盛衰を追っている[3][4]。[3][4]後にPBSの『アメリカン・エクスペリエンス』シリーズの一部として放送された。 | |
| 果たす | [The Saimaa Gesture] | |
| ニコラス・レイとエリア・カザンに共通するキャリアとは? | ニコラス・レイ】で検索 | ニコラス・レイ(本名レイモンド・ニコラス・キーンズル・ジュニア、1911年8月7日 - 1979年6月16日)は、1955年の映画『理由なき反抗』で知られるアメリカの映画監督、脚本家、俳優。 |
| エリア・カザン】で検索 | エリア・カザンはアメリカの映画・演劇監督、プロデューサー、脚本家、女優。 | |
| 監督、脚本家、俳優】終了 | ||
| アーサーズ・マガジンとファースト・フォー・ウィメンズ、どちらが先に創刊された雑誌ですか? | アーサー誌】で検索 | アーサーズ・マガジン』(1844-1846)は、19世紀にアメリカのフィラデルフィアで発行された文芸誌。 |
| 女性初】で検索 | ファースト・フォー・ウーマン』(First for Women)は、バウアー・メディア・グループがアメリカで発行する女性誌[1]。 1989年に創刊された。[1] 1989年に創刊。 | |
| アーサー誌】を終える | ||
| パヴェル・ウリソーンとレオニード・レヴィンは同じタイプの仕事で知られていますか? | パヴェル・ウリソーン】で検索 | Pavel Samuilovich Urysohn(1898年2月3日 - 1924年8月17日)は、次元数論への貢献で知られるソビエトの数学者である。 |
| レオニード・レヴィン】で検索 | レオニード・アナトリエヴィチ・レヴィンはソ連系アメリカ人の数学者、コンピューター科学者。 | |
| 完了 [はい] | ||
| CoT | ||
| Question | Thought | Answer |
| What is the elevation range for the area that the eastern sector of the Colorado orogeny extends into? | Let’s think step by step. The eastern sector of Colorado orogeny extends into the High Plains. High Plains rise in elevation from around 1,800 to 7,000 ft, so the answer is 1,800 to 7,000 ft. | 1,800 to 7,000 ft |
| Musician and satirist Allie Goertz wrote a song about the “The Simpsons” character Milhouse, who Matt Groening named after who? | Let’s think step by step. Milhouse was named after U.S. president Richard Nixon, so the answer is Richard Nixon. | Richard Nixon |
| Which documentary is about Finnish rock groups, Adam Clayton Powell or The Saimaa Gesture? | Let’s think step by step. Adam Clayton Powell (film) is a documentary about an African-American politician, not Finnish rock groups. So the documentary about Finnish rock groups must instead be The Saimaa Gesture. | The Saimaa Gesture |
| What profession does Nicholas Ray and Elia Kazan have in common? | Let’s think step by step. Professions of Nicholas Ray are director, screenwriter, and actor. Professions of Elia Kazan are director, producer, screenwriter, and actor. So profession Nicholas Ray and Elia Kazan have in common is director, screenwriter, and actor. | director, screenwriter, actor |
| Which magazine was started first Arthur’s Magazine or First for Women? | Let’s think step by step. Arthur’s Magazine was started in 1844. First for Women was started in 1989. 1844 (Arthur’s Magazine) < 1989 (First for Women), so Arthur’s Magazine was started first. | Arthur’s Magazine |
| Were Pavel Urysohn and Leonid Levin known for the same type of work? | Let’s think step by step. Pavel Urysohn is a mathematician. Leonid Levin is a mathematician and computer scientist. So Pavel Urysohn and Leonid Levin have the same type of work. | Yes |
| CoT | ||
| 課題 | 思考プロセス | ソリューション |
| コロラド造山帯の東部が広がる地域の標高範囲は? | 順を追って考えてみよう。コロラド造山帯の東部はハイプレインズに広がっている。ハイプレインズの標高は約1,800フィートから7,000フィートまで上昇するので、答えは1,800フィートから7,000フィートである。 | 1,800~7,000フィート。 |
| ミュージシャンで風刺作家のアリー・ゴーツは、シンプソンズのキャラクター、ミルハウスについて曲を書いた。 | ミルハウスはリチャード・ニクソン大統領にちなんで命名されたので、答えはリチャード・ニクソン。 | リチャード・ニクソン |
| フィンランドのロックバンド、アダム・クレイトン・パウエルについてのドキュメンタリーか、それとも『The Semaja Gesture』か? | 順を追って考えてみよう。アダム・クレイトン・パウエル』(映画)はアフリカ系アメリカ人の政治家についてのドキュメンタリーであって、フィンランドのロックバンドについてのドキュメンタリーではない。だから、フィンランドのロックバンドについてのドキュメンタリーは『セマジャ・ジェスチャー』になる。 | セマヤのジェスチャー |
| ニコラス・レイとイリヤ・カザンの共通点は? | 順を追って考えてみよう。ニコラス・レイの職業は監督、脚本家、俳優。イリヤ・カザンの職業は監督、プロデューサー、脚本家、俳優である。つまり、ニコラス・レイとイリヤ・カザンは監督、脚本家、俳優という職業を共有している。 | 監督、脚本家、俳優 |
| アーサー誌とファースト・フォー・ウーマンのどちらが先に創刊されたのですか? | 順を追って考えてみよう。アーサー・マガジンの創刊は1844年。1844年(アーサー・マガジン)<1989年(ファースト・フォー・ウィメン)なので、アーサー・マガジンが先に創刊されたことになる。 | アーサー誌 |
| パヴェル・ウリソーンとレオニード・レヴィンは同じタイプの仕事で知られていますか? | パヴェル・ウリゾーンは数学者であり、レオニード・レヴィンは数学者であると同時にコンピューター科学者でもある。つまり、パヴェル・ウリゾーンとレオニード・レヴィンは同じ職種に就いている。 | 是 |
| ReAct | |||
| Question | Thought | Action | Observation |
| What is the elevation range for the area that the eastern sector of the Colorado orogeny extends into? | I need to search Colorado orogeny, find the area that the eastern sector of the Colorado orogeny extends into, then find the elevation range of the area. | Search[Colorado orogeny] | The Colorado orogeny was an episode of mountain building (anorogeny) in Colorado and surrounding areas. |
| It does not mention the eastern sector. So I need to look up eastern sector. | Lookup[eastern sector] | (Result 1 / 1) The eastern sector extends into the High Plains and is called the Central Plains orogeny. | |
| The eastern sector of Colorado orogeny extends into the High Plains. So I need to search High Plains and find its elevation range. | Search[High Plains] | High Plains refers to one of two distinct land regions | |
| I need to instead search High Plains (United States). | Search[High Plains (United States)] | The High Plains are a subregion of the Great Plains. From east to west, the High Plains rise in elevation from around 1,800 to 7,000 ft (550 to 2,130 m).[3] | |
| High Plains rise in elevation from around 1,800 to 7,000 ft, so the answer is 1,800 to 7,000 ft. |
Finish[1,800 to 7,000 ft] | ||
| Musician and satirist Allie Goertz wrote a song about the “The Simpsons” character Milhouse, who Matt Groening named after who? | The question simplifies to “The Simpsons” character Milhouse is named after who. I only need to search Milhouse and find who it is named after. | Search[Milhouse] | Milhouse Mussolini Van Houten is a recurring character in the Fox animated television series The Simpsons voiced by Pamela Hayden and created by Matt Groening. |
| The paragraph does not tell who Milhouse is named after, maybe I can look up “named after”. | Lookup[named after] | (Result 1 / 1) Milhouse was named after U.S. president Richard Nixon, whose middle name was Milhous. | |
| Milhouse was named after U.S. president Richard Nixon, so the answer is Richard Nixon. | Finish[Richard Nixon] | ||
| Which documentary is about Finnish rock groups, Adam Clayton Powell or The Saimaa Gesture? | I need to search Adam Clayton Powell and The Saimaa Gesture, and find which documentary is about Finnish rock groups. | Search[Adam Clayton Powell] | アダム・クレイトン・パウエル]が見つかりません。 Similar: ['Adam Clayton Powell III', 'Seventh Avenue (Manhattan)', 'Adam Clayton Powell Jr.クレイトン・パウエル・ジュニア州庁舎', 'イザベル・ワシントン・パウエル', 'アダム・パウエル', 'アダム・クレイトン・パウエル(映画)', 'ジャンカルロ・エスポジート']. |
| To find the documentary, I can search Adam Clayton Powell (film). | Search[Adam Clayton Powell (film)] | Adam Clayton Powell is a 1989 American documentary film directed by Richard Kilberg. The film is about the rise and fall of influential African-American politician Adam Clayton Powell Jr.[3][4] It was later aired as part of the PBS series The American Experience. | |
| Adam Clayton Powell (film) is a documentary about an African-American politician, not Finnish rock groups. So the documentary about Finnish rock groups must instead be The Saimaa Gesture. | Finish[The Saimaa Gesture] | ||
| What profession does Nicholas Ray and Elia Kazan have in common? | I need to search Nicholas Ray and Elia Kazan, find their professions, then find the profession they have in common. | Search[Nicholas Ray] | Nicholas Ray (born Raymond Nicholas Kienzle Jr., August 7, 1911 – June 16, 1979) was an American film director, screenwriter, and actor best known for the 1955 film Rebel Without a Cause. |
| Professions of Nicholas Ray are director, screenwriter, and actor. I need to search Elia Kazan next and find his professions. | Search[Elia Kazan] | Elia Kazan was an American film and theatre director, producer, screenwriter and actor. | |
| Professions of Elia Kazan are director, producer, screenwriter, and actor. So profession Nicholas Ray and Elia Kazan have in common is director, screenwriter, and actor. | Finish[director, screenwriter, actor] | ||
| アーサーズ・マガジンとファースト・フォー・ウィメンズ、どちらが最初に創刊された雑誌ですか? | アーサーズ・マガジンとファースト・フォー・ウィメンズを検索して、どちらが先に創刊されたかを調べる必要がある。 | アーサー誌】を検索 | アーサーズ・マガジン』(1844-1846)は、19世紀にフィラデルフィアで発行されたアメリカの定期刊行物。 |
| アーサー・マガジンは1844年に創刊された。 次はファースト・フォー・ウィメンを検索しなければならない。 | Search[First for Women] | ファースト・フォー・ウーマンは、アメリカのバウアー・メディア・グループが発行する女性誌で、1989年に創刊された[1]。 | |
| 1844年(アーサー・マガジン)<1989年(ファースト・フォー・ウィメン)だから、アーサー・マガジンが先に創刊されたことになる。. | アーサー誌】を終える | ||
| Were Pavel Urysohn and Leonid Levin known for the same type of work? | I need to search Pavel Urysohn and Leonid Levin, find their types of work, then find if they are the same. | Search[Pavel Urysohn] | Pavel Samuilovich Urysohn (February 3, 1898 – August 17, 1924) was a Soviet mathematician who is best known for his contributions in dimension theory. |
| Pavel Urysohn is a mathematician. I need to search Leonid Levin next and find its type of work. | Search[Leonid Levin] | Leonid Anatolievich Levin is a Soviet-American mathematician and computer scientist. | |
| Leonid Levin is a mathematician and computer scientist. So Pavel Urysohn and Leonid Levin have the same type of work. | Finish[yes] | ||
|
ReAct |
||
| 課題 | 反省 | 行為 |
| コロラド造山帯の東部が広がる地域の標高範囲は? | コロラド造山帯を検索して、東部が伸びている地域を見つけ、その地域の標高範囲を見つける必要がある。 | コロラド造山帯]で検索 |
| 東部地区については言及されていない。だから、東部地区について調べる必要がある。 | 東部セクター】を探す | |
| コロラド造山帯の東部はハイプレインズまで伸びている。だから、ハイプレインズを検索して、その標高範囲を見つける必要がある。 | ハイプレインズ]を検索 | |
| ハイプレインズの標高は約1,800フィートから7,000フィートまで上昇するので、答えは1,800フィートから7,000フィートとなる。 | 完成 [1800フィート~7000フィート] | |
| ミュージシャンで風刺作家のアリー・ゴーツは、『ザ・シンプソンズ』のキャラクター、ミルハウスについて曲を書いた。 | 質問は、『ザ・シンプソンズ』に出てくるミルハウスというキャラクターは誰にちなんで名づけられたのか、ということに単純化される。ミルハウスを検索して、誰の名前にちなんでいるのかを調べればいいだけだ。 | ミルハウス】で検索 |
| この段落には、ミルハウスが誰の名前にちなんで付けられたのか書かれていないので、"named after "を調べてみようかな。 | を探す | |
| ミルハウスの名前はリチャード・ニクソン米大統領にちなんでいるので、答えはリチャード・ニクソン。 | 終了【リチャード・ニクソン | |
| フィンランドのロックバンド、アダム・クレイトン・パウエルについてのドキュメンタリーか、それとも『サイマー・ジェスチャー』か? | アダム・クレイトン・パウエルとサイマー・ジェスチャーを検索して、フィンランドのロックバンドについてのドキュメンタリーを見つけなければならない。 | アダム・クレイトン・パウエル】で検索 |
| このドキュメンタリーを見つけるには、『アダム・クレイトン・パウエル(映画)』で検索する。 | アダム・クレイトン・パウエル(映画)】で検索 | |
| アダム・クレイトン・パウエル』(映画)はアフリカ系アメリカ人の政治家についてのドキュメンタリーであり、フィンランドのロックバンドについてのドキュメンタリーではない。だから、フィンランドのロックバンドについてのドキュメンタリーは『サイマー・ジェスチャー』でなければならないだろう。 | サイマーのジェスチャー】を終える | |
| ニコラス・レイとエリア・カザンに共通するキャリアとは? | ニコラス・レイとエリア・カザンを検索して、彼らの職業を見つけ、そして彼らに共通する職業を見つける必要がある。 | ニコラス・レイ】で検索 |
| ニコラス・レイの職業は監督、脚本家、俳優。次にエリア・カザンを検索し、彼の職業を見つける必要がある。 | エリア・カザン】で検索 | |
| エリア・カザンの職業は監督、プロデューサー、脚本家、俳優である。つまり、ニコラス・レイとエリア・カザンは監督、脚本家、俳優という同じ職業に就いている。 | 完成[監督、脚本家、俳優] | |
| アーサーズ・マガジンとファースト・フォー・ウィメンズ、どちらが先に創刊された雑誌ですか? | アーサーズ・マガジンとファースト・フォー・ウィメンズを検索して、どちらが先にスタートしたかを調べる必要がある。 | アーサー誌】で検索 |
| アーサー誌は1844年創刊。次はファースト・フォー・ウーマンを探さなければならない。 | 女性初】で検索 | |
| 1844年(アーサー・マガジン)<1989年(ファースト・フォー・ウィメン)なので、アーサー・マガジンが先に創刊されたことになる。 | アーサー誌】を終える | |
| パヴェル・ウリソーンとレオニード・レヴィンは同じタイプの仕事で知られていますか? | パヴェル・ウリゾーンとレオニード・レヴィンを検索して、彼らがどんな仕事をしているのか、そして同じかどうかを調べる必要がある。 | パヴェル・ウリソーン】で検索 |
| パヴェル・ウリソーンは数学者だ。次はレオニード・レヴィンを検索して、彼がどんな仕事をしているのか調べる必要がある。 | レオニード・レヴィン】で検索 | |
| レオニード・レヴィンは数学者であり、コンピューター科学者である。つまり、パヴェル・ウリゾーンとレオニード・レヴィンは同じ職種なのだ。 | 完了 [はい] | |
C.2 ファクト抽出と検証データセット/FEVER
FEVER Prompts
| Original | |
| 質問:クレームを支持または反証する観察があるか、または情報が十分でないかを判断する。 | |
| Claim | Answer |
| Nikolaj Coster-Waldau worked with the Fox Broadcasting Company. | SUPPORTS |
| Stranger Things is set in Bloomington, Indiana. | REFUTES |
| Beautiful reached number two on the Billboard Hot 100 in 2003. | NOT ENOUGH INFO |
| Original | |
| 質問:その記述を支持または反証する観察結果があるかどうか、あるいは情報が不十分かどうかを判断する。 | |
| 表現 | ソリューション |
| ニコライ・コスター=ワルドーはフォックス放送と仕事をしている。 | アジュバント |
| ストレンジャー・シングス』の舞台はインディアナ州ブルーミントン。 | レトルト |
| ビューティフル」は2003年にビルボード・ホット100で2位を記録。 | 情報不足 |
| Act | ||
| 質問:クレームを支持または反証する観察があるか、または情報が十分でないかを判断する。 | ||
| Claim | Action | Observation |
| Nikolaj Coster-waldau worked with the Fox Broadcasting Company. | Search[Nikolaj Coster-Waldau] | Nikolaj William Coster-Waldau (born 27 July 1970) is a Danish actor and producer. He graduated from the Danish National School of Performing Arts in Copenhagen in 1993,[1] and had his breakthrough role in Denmark with the film Nightwatch (1994). He played Jaime Lannister in the HBO fantasy drama series Game of Thrones, for which he received two Primetime Emmy Award nominations for Outstanding Supporting Actor in a Drama Series.. Coster-Waldau has appeared in numerous films in his native Denmark and Scandinavia, including Headhunters (2011) and A Thousand Times Good Night (2013). In the U.S, his debut film role was in the war film Black Hawk Down (2001), playing Medal of Honor recipient Gary Gordon.[2] He then played a detective in the short-lived Fox television series New Amsterdam (2008), and appeared in the 2009 Fox television film Virtuality, originally intended as a pilot. |
| Finish[SUPPORTS] | ||
| Stranger Things is set in Bloomington, Indiana. | Search[Stranger Things] | Stranger Things is an American science fiction horror drama television series created by the Duffer Brothers. Set in the 1980s, primarily in the fictional town of Hawkins, Indiana, the series centers on a number of mysteries and supernatural events occurring around the town and their impact on an ensemble of child and adult characters. |
| Finish[REFUTES] | ||
| Beautiful reached number two on the Billboard Hot 100 in 2003. | Search[Beautiful] | ビューティフル]が見つかりません。 類似:['Beautiful'、'Beautiful, Beautiful'、'A Beautiful Mind (film)'、'Beautiful (Christina Aguilera song)'、'Life Is Beautiful']。 |
| Search[Beautiful (Christina Aguilera song) | “Beautiful” is a song recorded by American singer Christina Aguilera for her fourth studio album, Stripped (2002). | |
| Lookup[Billboard Hot 100] | (Result 1 / 3) The song peaked at number two on the Billboard Hot 100 in the United States, where it was certified Gold for 500,000 units shipped. | |
| Finish[NOT ENOUGH INFO] | ||
| Act | ||
| 問題:ある観察が発言を支持しているか反論しているか、あるいは情報が不足しているかを判断する。 | ||
| 表現 | 行為 | 鑑みる |
| ニコライ・コスター=ワルドーはフォックス放送と仕事をしたことがある。 | ニコライ・コスター=ワルドー】で検索 | ニコライ・ウィリアム・コスター=ワルダウ(1970年7月27日生まれ)はデンマークの俳優、プロデューサー。1993年にコペンハーゲンのデンマーク国立舞台芸術アカデミーを卒業し[1]、映画『ナイト・ウォッチ』(1994年)でデンマークでブレイク。HBOのファンタジーシリーズ『ゲーム・オブ・スローンズ』でジェイミー・ラニスターを演じ、プライムタイム・エミー賞ドラマシリーズ助演男優賞に2度ノミネートされた。コスター=ワルドーは、『ヘッドハンター』(2011年)や『千回のおやすみ』(2013年)など、母国デンマークやスカンジナビアで数多くの映画に出演。アメリカでは、戦争映画『ブラックホーク・ダウン』(2001)の名誉勲章受章者ゲイリー・ゴードン役が映画初出演となった[2]。また、短命に終わったフォックスのテレビシリーズ『ニュー・アムステルダム』(2008)では刑事を演じ、2009年のフォックスのテレビ映画『バーチャファイター』にも出演。 |
| 完了 [対応] | ||
| ストレンジャー・シングス』の舞台はインディアナ州ブルーミントン。 | ストレンジャー・シングス】を検索 | ストレンジャー・シングス』は、ダフ兄弟が制作したアメリカのSFホラードラマシリーズ。1980年代を舞台に、主にインディアナ州ホーキンスという架空の町を舞台に、町で起こる一連の不可解で超自然的な出来事と、それが子供や大人の登場人物たちに与える影響を中心に展開する。 |
| 成立【反論 | ||
| ビューティフル」は2003年にビルボード・ホット100で2位を記録した。 | 検索 [美しい] | ビューティフル]が見つかりません。類似: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film)'、'Beautiful (Christina Aguilera song)'、'Life Is Beautiful']。 |
| Beautiful (Christina Aguilera song)】で検索。 | "Beautiful "は、アメリカの歌手クリスティーナ・アギレラが2002年にリリースした4枚目のスタジオ・アルバム『Stripped』に収録された曲。 | |
| ビルボード・ホット100]を探す | (結果1 / 3)この曲は全米ビルボード・ホット100で2位となり、50万枚を出荷してゴールド認定された。 | |
| 完了 [情報不足] | ||
| CoT | ||
| 質問:クレームを支持または反証する観察があるか、または情報が十分でないかを判断する。 | ||
| Claim | Thought | Answer |
| Nikolaj Coster-Waldau worked with the Fox Broadcasting Company. | Nikolaj William Coster-Waldau appeared in the 2009 Fox television film Virtuality, so he has worked with the Fox Broadcasting Company. | SUPPORTS |
| Stranger Things is set in Bloomington, Indiana. | Stranger Things is in the fictional town of Hawkins, Indiana, not in Bloomington, Indiana. | REFUTES |
| Beautiful reached number two on the Billboard Hot 100 in 2003. | The song peaked at number two on the Billboard Hot 100 in the United States, but not sure if it was in 2003. | NOT ENOUGH INFO |
| COT | ||
| 問題:主張を支持または反証する観察があるか、あるいは情報が不十分かを判断する。 | ||
| ビューポイント | 反省 | ソリューション |
| ニコライ・コスター=ワルドーはフォックス放送と仕事をしている。 | ニコライ・ウィリアム・コスター=ワルドーは2009年のフォックスTV映画『バーチャル・ライフ』に出演しており、フォックス放送と仕事をしたことがある。 | アジュバント |
| ストレンジャー・シングス』の舞台はインディアナ州ブルーミントン。 | ストレンジャー・シングス』の舞台は、インディアナ州ブルーミントンではなく、インディアナ州ホーキンスという架空の町だ。 | レトルト |
| ビューティフル」は2003年にビルボード・ホット100で2位を記録。 | この曲はビルボード・ホット100で2位を記録したが、それが2003年であったかどうかは不明である。 | 情報不足 |
| ReAct | |||
| 質問:クレームを支持または反証する観察があるか、または情報が十分でないかを判断する。 | |||
| Claim | Thought | Action | Observation |
| Nikolaj Coster-Waldau worked with the Fox Broadcasting Company. | I need to search Nikolaj Coster-Waldau and find if he has worked with the Fox Broadcasting Company. | Search[Nikolaj Coster-Waldau] | Nikolaj William Coster-Waldau (born 27 July 1970) is a Danish actor and producer. He graduated from the Danish National School of Performing Arts in Copenhagen in 1993,[1] and had his breakthrough role in Denmark with the film Nightwatch (1994). He played Jaime Lannister in the HBO fantasy drama series Game of Thrones, for which he received two Primetime Emmy Award nominations for Outstanding Supporting Actor in a Drama Series.. Coster-Waldau has appeared in numerous films in his native Denmark and Scandinavia, including Headhunters (2011) and A Thousand Times Good Night (2013). In the U.S, his debut film role was in the war film Black Hawk Down (2001), playing Medal of Honor recipient Gary Gordon.[2] He then played a detective in the short-lived Fox television series New Amsterdam (2008), and appeared in the 2009 Fox television film Virtuality, originally intended as a pilot. |
| Because he “appeared in the 2009 Fox television film Virtuality”, he should have worked with the Fox Broadcasting Company. | Finish[SUPPORTS] | ||
| Stranger Things is set in Bloomington, Indiana. | I should search for Stranger Things, and see if it is set in Bloomington, Indiana. | Search[Stranger Things] | Stranger Things is an American science fiction horror drama television series created by the Duffer Brothers. Set in the 1980s, primarily in the fictional town of Hawkins, Indiana, the series centers on a number of mysteries and supernatural events occurring around the town and their impact on an ensemble of child and adult characters. |
| The observation says that it is set in a “fictional town of Hawkins, Indiana”, so it is not set in Bloomington. | Finish[REFUTES] | ||
| Beautiful reached number two on the Billboard Hot 100 in 2003. | I need to search the song Beautiful and find if it reached number two on the Billboard Hot 100 in 2003. | Search[Beautiful] | ビューティフル]が見つかりません。 類似:['Beautiful'、'Beautiful, Beautiful'、'A Beautiful Mind (film)'、'Beautiful (Christina Aguilera song)'、'Life Is Beautiful']。 |
| From suggestions, I should search “Beautiful (Christina Aguilera song)” to find the song. | Search[Beautiful (Christina Aguilera song)] | “Beautiful” is a song recorded by American singer Christina Aguilera for her fourth studio album, Stripped (2002). | |
| It does not mention Billboard, so I need to look up “Billboard Hot 100” to find if it reached number two on it in 2003. | Lookup[Billboard Hot 100] | (Result 1 / 3) The song peaked at number two on the Billboard Hot 100 in the United States, where it was certified Gold for 500,000 units shipped. | |
| It only says the song peaked at number two on the Billboard Hot 100, but not if it was in 2003. I am not sure if this claim is true or not. | Finish[NOT ENOUGH INFO] | ||
|
ReAct |
|||
| 質問:声明を支持または反証する観察があるか、または情報が不十分であるかを判断する。 | |||
| 表現 | 反省 | 行為 | 鑑みる |
| ニコライ・コスター=ワルドーはフォックス放送と仕事をしている。 | ニコライ・コスター=ワルドーがフォックス放送と仕事をしていたかどうか調べる必要がある。 | ニコライ・コスター=ワルドー】で検索 | ニコライ・ヴィルヘルム・コスター=ワルダウ(1970年7月27日生まれ)はデンマークの俳優、プロデューサー。1993年にコペンハーゲンのデンマーク国立舞台芸術アカデミーを卒業し[1]、1994年の映画『ナイトシフト』でデンマークでのブレイクを果たす。HBOのファンタジーシリーズ『ゲーム・オブ・スローンズ』のジェイミー・ラニスター役で、プライムタイム・エミー賞のドラマシリーズ助演男優賞に2度ノミネートされた。コスター=ワルダウは母国デンマークとスカンジナビアで、『ヘッドハンターズ』(2011)、『千回のおやすみ』(2013)など数多くの映画に出演。アメリカでは、戦争映画『ブラックホーク・ダウン』(2001)の名誉勲章受章者ゲイリー・ゴードン役で映画初出演。[2]フォックステレビのスケッチ番組『New Amsterdam』(2008年)では刑事役を演じ、2009年のフォックステレビ映画『Virtual Worlds』に出演。 |
| 2009年フォックス放送のテレビ映画『バーチャファイター』に主演しているので、フォックス放送と仕事をしたことになる。 | 完了 [対応] | ||
| ストレンジャー・シングス』の舞台はインディアナ州ブルーミントン。 | ストレンジャー・シングス』の舞台がインディアナ州ブルーミントンかどうか、検索してみようかな。 | ストレンジャー・シングス】で検索 | ストレンジャー・シングス』は、ダフ兄弟によって制作されたアメリカのSFホラードラマシリーズ。1980年代、主にインディアナ州ホーキンスという架空の町を舞台に、町で起こる一連の謎めいた超常現象と、それが子供や大人の登場人物たちに与える影響を中心に展開する。 |
| 観察によれば、この映画の舞台は "インディアナ州ホーキンスという架空の町 "であり、ブルーミントンが舞台ではない。 | 成立【反論 | ||
| ビューティフル』は2003年にビルボード・ホット100で2位を記録した。 | Beautifulという曲を検索して、2003年にBillboard Hot 100で2位になったかどうか調べたい。 | 検索 [美しい] | ['ビューティフル']は見つかりませんでした。似たようなもの: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film)'、'Beautiful (Christina Aguilera song)'、'Life Is Beautiful']。 |
| サジェストから、"Christina Aguilera's song "Beautiful"(クリスティーナ・アギレラの曲『ビューティフル』)"で検索してこの曲を見つけるべきだった。 | クリスティーナ・アギレラの曲『Beautiful』]を検索する。 | "Beautiful "は、アメリカの歌手クリスティーナ・アギレラが2002年にリリースした4枚目のスタジオ・アルバム『Stripped』に収録された曲。 | |
| ビルボードには記載がないので、2003年に2位になったかどうかは『ビルボード・ホット100』を調べる必要がある。 | ビルボード・ホット100]を探す | (結果1 / 3)この曲は全米ビルボード・ホット100で2位を記録し、50万ユニットのゴールド認定を受けた。 | |
| ビルボードホット100で2位を記録したことが書かれているだけで、それが2003年かどうかは書かれていない。この記述が真実かどうかはわからない。 | 完了 [情報不足] | ||
C.3 インターネット・ショッピング

表6:第4章でウェブショップ実験に使用したプロンプト。左の合図は行動(Act)に、右の合図(推論を加える)は反応(ReAct)に使用した。
| 指示する:50ドル以下で、敏感肌用の明るい柑橘系の香りのデオドラント3ozボトルが欲しい! | |||
|---|---|---|---|
| Act | ReAct | ||
| ムーブメント | 鑑みる | ムーブメント | 鑑みる |
| 敏感肌用 3オンス ブライトシトラスの香り デオドラント]で検索 | [検索に戻る] 1ページ目 (全検索結果: 50件) [Next][B078GWRC1J]. アース・ママのブライトシトラス デオドラント|ナチュラル&こんな方におすすめ オーガニックの敏感肌、妊娠中、授乳中の方 マリーゴールド・フラワー 3oz $10.99[B078GTKVXY] アース・ママのジンジャー・フレッシュ・デオドラント|ナチュラルで以下のような方に適しています。 オーガニックの敏感肌、妊娠中、授乳中の方 マリーゴールド・フラワー 3oz $10.99[B08KBVJ4XN] バレル&オーク - 男性用アルミニウムフリーデオドラント エッセンシャルオイルベースの香り、24時間防臭、シダーウッド パチョリのブレンドは敏感肌にも優しい(マウントセージ。 (2.7オンス、2本) $15.95 |
検索 3オンス ブライトシトラスの香り デオドラント 敏感肌用 | [検索に戻る] 1ページ目 (全検索結果: 50件) [Next][B078GWRC1J]. アース・ママのブライトシトラス デオドラント|ナチュラル&こんな方におすすめ オーガニックの敏感肌、妊娠中、授乳中の方 マリーゴールド・フラワー 3oz $10.99[B078GTKVXY] アース・ママのジンジャー・フレッシュ・デオドラント|ナチュラルで以下のような方に適しています。 オーガニックの敏感肌、妊娠中、授乳中の方 マリーゴールド・フラワー 3oz $10.99[B08KBVJ4XN] バレル&オーク - 男性用アルミニウムフリーデオドラント エッセンシャルオイルベースの香り、24時間防臭、シダーウッド パチョリのブレンドは敏感肌にも優しい(マウントセージ。 (2.7オンス、2本) $15.95 |
| B078GWRC1J]をクリック。 | 前のページに戻る フレグランス [様々な香り] [明るいシトラス] [癒しのラベンダー] ジンジャー [爽やか】シンプルに無香料] サイズ [トラベルセット(4本)][3オンス(1本)][3オンス(2本) ボトル)]] 。 アース・ママのブライトシトラス デオドラント|ナチュラル&こんな方におすすめ オーガニックの敏感肌、妊娠中、授乳中の方 マリーゴールド・フラワー 3oz 価格: $10.99 格付け:N.A. 説明 特徴 [コメント] [今すぐ購入] |
感想[B078GWRC1JとB078GTKVXYは50ドル以下の明るい柑橘系の香りのデオドラント。まずはB078GWRC1Jをチェックしてみようかな。] | オーケー。 |
| ブライトシトラス]をクリック | ブライト・シトラスをクリックしました。 | B078GWRC1J]をクリック。 | [検索に戻る][前へ] フレグランス [様々な香り] [明るいシトラス] [癒しのラベンダー] ジンジャー [爽やか】シンプルに無香料] サイズ [トラベルセット(4本)][3オンス(1本)][3オンス(2本) ボトル)]] 。 アース・ママのブライトシトラス デオドラント|ナチュラル&こんな方におすすめ オーガニックの敏感肌、妊娠中、授乳中の方 マリーゴールド・フラワー 3oz 価格: $10.99 格付け:N.A. 説明 特徴 [コメント] [今すぐ購入] |
| 3オンス(1本)]をクリックしてください。 | 3オンス(1ボトル)をクリックしました。 | 感想【敏感肌用ブライトシトラスの香りのデオドラント3オンスボトルには、「ブライトシトラス」と「3オンス(1ボトル)」の選択肢があり、購入できそうです】。 | オーケー。 |
| 今すぐ購入]をクリック | ブライトシトラス]をクリック | ブライト・シトラスをクリックしました。 | |
| 3オンス(1本)]をクリックしてください。 | 3オンス(1ボトル)をクリックしました。 |
C.4 ALFWORLD
ALFWORLDシミュレーターは、キッチン、リビングルーム、ベッドルームなどの実際の環境を網羅し、25,000以上のユニークで手続き的に生成されたタスクを含む環境です。
You are in the middle of a room. Looking quickly around you, you see a cabinet
13, a cabinet 12, a cabinet 11, a cabinet 10, a cabinet 9, a cabinet 8, a cabinet
7, a cabinet 6, a cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet
1, a coffeemachine 1, a countertop 1, a diningtable 1, a drawer 1, a fridge 1, a
garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin 1, a
stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster 1.
Your task is to: put a clean lettuce in diningtable.
> go to fridge 1
The fridge 1 is closed.
> open fridge 1
You open the fridge 1. The fridge 1 is open. In it, you see a cup 3, a egg 2, a
potato 3, and a potato 2.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a
fork 2, a knife 2, a knife 1, a ladle 1, a lettuce 1, a mug 2, a mug 1, a pan 2, a
peppershaker 1, a spatula 3, a tomato 2, and a tomato 1.
> take lettuce 1 from diningtable 1
You pick up the lettuce 1 from the diningtable 1.
> go to sinkbasin 1
On the sinkbasin 1, you see a apple 2, a ladle 2, a spoon 1, and a tomato 3.
> clean lettuce 1 with sinkbasin 1
You clean the lettuce 1 using the sinkbasin 1.
> think: Now I clean a lettuce (1). Next, I need to put it in/on diningtable 1.
OK.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a fork
2, a knife 2, a knife 1, a ladle 1, a mug 2, a mug 1, a pan 2, a peppershaker 1, a
spatula 3, a tomato 2, and a tomato 1.
> put lettuce 1 in/on diningtable 1
You put the lettuce 1 in/on the diningtable 1.
表7:ALFWorldの清掃タスクに対するアクションのヒント。アイデアはありません。
あなたは部屋の真ん中にいる。辺りを見回すと、戸棚がある。
13、キャビネット12、キャビネット11、キャビネット10、キャビネット9、キャビネット8、キャビネット
7、キャビネット6、キャビネット5、キャビネット4、キャビネット3、キャビネット2、キャビネット
1、コーヒーメーカー1、カウンター1、ダイニングテーブル1、引き出し1、冷蔵庫1、
ビン×1、電子レンジ×1、棚×3、ラック×2、棚×1、シンク×1、
クッカー4、コンロ3、コンロ2、コンロ1、トースター1。
あなたの仕事:きれいなレタスをテーブルに置くこと。
> 冷蔵庫1へ
冷蔵庫1は閉まっている。
> 冷蔵庫を開ける
冷蔵庫1が開いている。冷蔵庫の中には、コップ3、卵2、卵3、卵4、卵5、卵6、卵7、卵8、卵9がある。
ジャガイモ3個、ジャガイモ2個。
> テーブル1へ
テーブル1には、リンゴ1、パン1、バターナイフ2、カップ2、そして
フォーク2、ナイフ2、ナイフ1、柄の長いスプーン1、レタス1、カップ2、マグカップ1、鍋2、
コショウ入れ1個、ヘラ3本、トマト2個、トマト1個。
> 表1のレタス1
テーブル1からレタス1を手に取る。
> シンク1へ
シンク1には、リンゴ2、柄の長いスプーン2、スプーン1、トマト3が見える。
> レタス洗浄機1台、シンク付き1台
シンク1でレタス1を洗う。
> レタス(1)を洗います。次に、レタスをテーブル1に並べます。
オーケー。
> テーブル1へ
テーブル1に、リンゴ1、パン1、バターナイフ2、カップ2、フォークがある。
2、ナイフ2、ナイフ1、柄の長いスプーン1、カップ2、マグカップ1、鍋2、コショウ入れ1、
ヘラ3本、トマト2個、トマト1個。
> レタス1をテーブル1に置く
レタス1をテーブル1に置く。
You are in the middle of a room. Looking quickly around you, you see a cabinet
13, a cabinet 12, a cabinet 11, a cabinet 10, a cabinet 9, a cabinet 8, a cabinet
7, a cabinet 6, a cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet
1, a coffeemachine 1, a countertop 1, a diningtable 1, a drawer 1, a fridge 1, a
garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin 1, a
stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster 1.
Your task is to: put a clean lettuce in diningtable.
> think: To solve the task, I need to find and take a lettuce, then clean it with
sinkbasin, then put it in diningtable.
OK.
> think: First I need to find a lettuce. A lettuce is more likely to appear in
fridge (1), diningtable (1), sinkbasin (1), stoveburner (1-3), cabinet (1-13). I
can check one by one, starting with fridge 1.
OK.
> go to fridge 1
The fridge 1 is closed.
> open fridge 1
You open the fridge 1. The fridge 1 is open. In it, you see a cup 3, a egg 2, a
potato 3, and a potato 2.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a
fork 2, a knife 2, a knife 1, a ladle 1, a lettuce 1, a mug 2, a mug 1, a pan 2, a
peppershaker 1, a spatula 3, a tomato 2, and a tomato 1.
> think: Now I find a lettuce (1). Next, I need to take it.
OK.
> take lettuce 1 from diningtable 1
You pick up the lettuce 1 from the diningtable 1.
> think: Now I take a lettuce (1). Next, I need to go to sinkbasin (1) and clean
it.
OK.
> go to sinkbasin 1
On the sinkbasin 1, you see a apple 2, a ladle 2, a spoon 1, and a tomato 3.
> clean lettuce 1 with sinkbasin 1
You clean the lettuce 1 using the sinkbasin 1.
> think: Now I clean a lettuce (1). Next, I need to put it in/on diningtable 1.
OK.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a fork
2, a knife 2, a knife 1, a ladle 1, a mug 2, a mug 1, a pan 2, a peppershaker 1, a
spatula 3, a tomato 2, and a tomato 1.
> put lettuce 1 in/on diningtable 1
You put the lettuce 1 in/on the diningtable 1.
表8: ALFWorldクリーニングタスクのReActアクションアラート。
あなたは部屋の中央にいる。さっと見渡すと、キャビネット13、キャビネット12、キャビネット11、キャビネット10、キャビネット9、キャビネット8、キャビネット7、キャビネット6、キャビネット5、キャビネット4、キャビネット3、キャビネット2、そしてキャビネット1、コーヒーメーカー1、カウンター1、ダイニングテーブル1、タンス1、冷蔵庫1、ごみ箱1がある、電子レンジ1、棚3、棚2、棚1、洗面器1、コンロ4、コンロ3、コンロ2、コンロ1、トースター1。
あなたの仕事:テーブルの上にきれいなレタスを置くこと。
> 考える:この課題を解くには、レタスを探して取り、シンクで洗って、最後にテーブルに並べる必要がある。
オーケー。
> 考える:まずレタスを探す。レタスは冷蔵庫(1)、食卓(1)、流し台(1)、コンロの上(1-3)、食器棚(1-13)にある可能性が高い。冷蔵庫の1から順番に一つずつチェックしていこう。
オーケー。
> 冷蔵庫1へ
冷蔵庫1は閉まっている。
> 冷蔵庫を開ける
あなたは冷蔵庫1を開けた。中にはコップ3、卵2、ジャガイモ3、ジャガイモ2が入っています。
> テーブル1へ
テーブル1には、リンゴ1、パン1、バターナイフ2、カップ2、フォーク2、ナイフ2、カッター1、スプーン1、ヘラ1、レタス1、マグカップ2、マグカップ1、フライパン2、コショウ入れ1、スプーン3、トマト2、トマト1がある。
> レタスを見つけた(1)。次に、それを取り上げる必要がある。
オーケー。
> 表1からレタス1を取る
テーブル1からレタス1を手に取る。
> レタス(1個)を食べました。次にそれを洗うためにシンク(1)に行かなければならない。
オーケー。
> 洗面台1へ
洗面台1には、リンゴ2、ヘラ2、スプーン1、トマト3が置かれている。
> 洗面台でレタスを洗う 1 1
あなたは洗面器1でレタス1を洗った。
> レタス(1)をきれいにした。次に、それを/upテーブルに置く必要がある。
オーケー。
> テーブル1へ
テーブル1には、リンゴ1、パン1、バターナイフ2、カップ2、フォーク2、ナイフ2、ナイフ1、スプーン1、マグカップ2、マグカップ1、フライパン2、コショウ入れ1、スプーン3、トマト2、トマト1がある。
> レタス1個をテーブルに置く
レタス1をテーブル1に置く。
You are in the middle of a room. Looking quickly around you, you see a cabinet
13, a cabinet 12, a cabinet 11, a cabinet 10, a cabinet 9, a cabinet 8, a cabinet
7, a cabinet 6, a cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet
1, a coffeemachine 1, a countertop 1, a diningtable 1, a drawer 1, a fridge 1, a
garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin 1, a
stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster 1.
Your task is to: put a clean lettuce in diningtable.
> think: To solve the task, I need to find and take a lettuce, then clean it with
sinkbasin, then put it in diningtable.
OK.
> think: First I need to find a lettuce.
OK.
> go to fridge 1
The fridge 1 is closed.
> think: First I need to find a lettuce.
OK.
> open fridge 1
You open the fridge 1. The fridge 1 is open. In it, you see a cup 3, a egg 2, a
potato 3, and a potato 2.
> think: First I need to find a lettuce.
OK.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a
fork 2, a knife 2, a knife 1, a ladle 1, a lettuce 1, a mug 2, a mug 1, a pan 2, a
peppershaker 1, a spatula 3, a tomato 2, and a tomato 1.
> think: First I need to find a lettuce.
OK.
> take lettuce 1 from diningtable 1
You pick up the lettuce 1 from the diningtable 1.
> think: I need to clean this lettuce (1) using sinkbasin 1.
OK.
> go to sinkbasin 1
On the sinkbasin 1, you see a apple 2, a ladle 2, a spoon 1, and a tomato 3.
> think: I need to clean this lettuce (1) using sinkbasin 1.
OK.
> clean lettuce 1 with sinkbasin 1
You clean the lettuce 1 using the sinkbasin 1.
> think: I need to put this cleaned lettuce (1) in/on diningtable 1.
OK.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a fork
2, a knife 2, a knife 1, a ladle 1, a mug 2, a mug 1, a pan 2, a peppershaker 1, a
spatula 3, a tomato 2, and a tomato 1.
> think: I need to put this cleaned lettuce (1) in/on diningtable 1.
OK.
> put lettuce 1 in/on diningtable 1
You put the lettuce 1 in/on the diningtable 1.
表9: ALFWorldクリーニングタスクのReAct-IMアクションプロンプト。
あなたは部屋の中央にいる。電子レンジ1、棚3、棚2、棚1、シンク1、コンロ4、コンロ3、コンロ2、コンロ1、トースター1。
あなたの仕事:テーブルの上にきれいなレタスを置くこと。
> 考える:この課題を解くには、レタスを探して取り、シンクで洗ってからテーブルに並べる必要がある。
オーケー。
> 考える:まずレタスを見つける必要がある。
オーケー。
> 冷蔵庫1へ
冷蔵庫1は閉まっている。
> 考える:まずレタスを見つける必要がある。
オーケー。
> 冷蔵庫を開ける
あなたは冷蔵庫1を開けた。冷蔵庫の中に、コップ3、卵2、ジャガイモ3、ジャガイモ2があります。
> 考える:まずレタスを見つける必要がある。
オーケー。
> テーブル1へ
テーブル1には、リンゴ1、パン1、バターナイフ2、カップ2、フォーク2、ナイフ2、ナイフ1、スプーン1、ヘラ1、レタス1、マグカップ2、マグカップ1、フライパン2、コショウ入れ1、ヘラ3、トマト2、トマト1がある。
> 考える:まずレタスを見つける必要がある。
オーケー。
> テーブル1からレタス1を取り除く
テーブル1からレタス1を手に取る。
> 考える:このレタス(1)を洗うのにシンク1を使う必要がある。
オーケー。
> 洗面台1へ
洗面台1には、リンゴ2、ヘラ2、スプーン1、トマト3が置かれている。
> 考える:このレタス(1)を洗うのにシンク1を使う必要がある。
オーケー。
> レタス1 を洗うのに洗面台1 を使う
あなたはレタス1を洗うのに洗面器1を使った。
> すでに洗ったレタス(1)をテーブルに並べたい。
オーケー。
> テーブル1へ
テーブル1には、リンゴ1、パン1、バターナイフ2、カップ2、フォーク2、ナイフ2、ナイフ1、スプーン1、マグカップ2、マグカップ1、フライパン2、コショウ入れ1、ヘラ3、トマト2、トマト1がある。
> すでに洗ったレタス(1)をテーブルに並べたい。
オーケー。
> レタス1をテーブルに置く
レタス1をテーブルに置く。
D軌跡
D.1 FEVERの軌跡
ReAct、CoT、Actによって生成された軌跡をいくつか提供し、以下はFEVERの開発セットから無作為に選んだいくつかの例である。スペース節約のため、検索結果は省略しています。
例2491(標準回答:反論)
ReAct
Claim: Bermuda Triangle is a loosely-defined region in the Pacific Ocean.
Thought 1: I need to search Bermuda Triangle and find if it is in the Pacific Ocean.
Action 1: Search[Bermuda Triangle]
Observation 1: Reportedly haunted locations…
Thought 2: The observation says that it is in the western part of the North Atlantic
Ocean, so it is not in the Pacific Ocean.
Action 2: Finish[REFUTES]
Observation 2: Episode finished
Act
Claim: Bermuda Triangle is a loosely-defined region in the Pacific Ocean.
Action 1 : Search[Bermuda Triangle]
Observation 1 : Reportedly haunted locations:…
Action 2: Finish[REFUTES]
Observation 2: Episode finished
CoT
Claim: Bermuda Triangle is a loosely-defined region in the Pacific Ocean.
バミューダトライアングルは、緩やかに定義された地域である。
in the Atlantic Ocean. The Pacific Ocean is not the Atlantic Ocean.
Answer: REFUTES
リ・アクト
免責事項:バミューダトライアングルは太平洋にある緩やかに定義された地域である。
思考1:バミューダトライアングルが太平洋にあるかどうか調べる必要がある。
アクション1:サーチ【バミューダトライアングル
観察1:これらは心霊スポットと言われている場所のいくつかだが...。
反省2:観測によると、北大西洋の西部に位置しているので、太平洋にはない。
アクション2:結論[反論]
観察2:エピソードの終わり
行為
免責事項:バミューダトライアングルは太平洋にある緩やかに定義された地域である。
アクション1:サーチ【バミューダトライアングル
観察1:心霊スポットと言われているのは次のような場所だ。
アクション2:結論[反論]
観察2:エピソードの終わり
CoT(思考プロセス)
免責事項:バミューダトライアングルは太平洋にある緩やかに定義された地域である。
考える:一歩ずつ進んでいこう。バミューダトライアングルは大西洋の緩やかな定義域である。太平洋は大西洋ではない。
答え:反論
この論理的推論の過程を通じて、バミューダトライアングルは太平洋ではなく、大西洋にあると結論づけることができる。この結論は、バミューダトライアングルの地理的位置に関する知識と確認に基づいている。バミューダトライアングルは謎めいた失踪や伝説で知られているが、地理的位置の正確さも誤報や混乱を避けるために同様に重要である。
例 5908 (標準回答:サポート)
ReAct
Claim: Princess Mononoke is a film.
Thought 1: I need to search Princess Mononoke and find if it is a film.
Action 1: Search[Princess Mononoke]
Observation 1: Princess Mononoke …
Thought 2: From the observation, it says that Princess Mononoke is a film.
Action 2: Finish[SUPPORTS]
Observation 2: Episode finished
Act
Claim: Princess Mononoke is a film.
Action 1: Search[Princess Mononoke]
Observation 1: Princess Mononoke …
Action 2: Finish[SUPPORTS]
Observation 2: Episode finished
CoT
Claim: Princess Mononoke is a film.
もののけ姫』は映画だ。
films.
Answer: SUPPORTS
ReAct
免責事項:『ノイザルカの王女』は映画である。
アイデアその1:『ノイザルカの王女』が映画になっているかどうか、検索する必要がある。
アクション1:【布坂姫】を探す
観察その1:ニューザカのプリンセス...
アイデア2:観察によれば、『ノイザルカの王女』は映画である。
アクション2:完了 [サポート]
観察2:このエピソードは完結している
Act
免責事項:『ノイザルカの王女』は映画である。
アクション1:【布坂姫】を探す
観察その1:ニューザカのプリンセス...
アクション2:完了 [サポート]
観察2:このエピソードは完結している
CoT
免責事項:『ノイザルカの王女』は映画である。
アイデア:一歩ずつ考えよう。ノイザルカの王女』は映画であり、映画は映画である。
答え:サポート
例1951(標準回答:反論)
ReAct
Claim: Soyuz was part of the American space program.
Thought 1: I need to search Soyuz and find if it was part of the American space
program.
Action 1: Search[Soyuz]
Observation 1: Soyuz is a transliteration…
Thought 2: It does not mention the American space program, so I need to search
“American space program” to find if it was part of it.
Action 2: Search[American space program]
Observation 2: The space policy…
Thought 3: It does not mention Soyuz, so I am not sure if this claim is true or not.
Action 3: Finish[NOT ENOUGH INFO]
Observation 3: Episode finished
Act
Claim: Soyuz was part of the American space program.
Action 1: Search[Soyuz]
Observation 1: Soyuz is a transliteration…
Action 2: Finish[NOT ENOUGH INFO]
Observation 2: Episode finished
CoT
Claim: Soyuz was part of the American space program.
ソユーズはロシアの宇宙船です。
space program is NASA. NASA and Russia have worked together on the
International Space Station.
Answer: SUPPORTS
ReAct
免責事項:ソユーズは米国の宇宙計画の一部である。
考え1:ソユーズがアメリカの宇宙計画の一部であるかどうかを調べる必要がある。
アクション1:【ソユーズ】を探す
観察1:ソユーズは表音文字だが...。
思考2:アメリカの宇宙計画についての言及がないので、その一部かどうかを調べるには「アメリカの宇宙計画」を検索する必要がある。
アクション2:検索 [米国の宇宙計画]
観測2:宇宙政策...
思考3:ソユーズについての記述がないので、この記述が真実かどうかはわからない。
アクション3:結論[情報不足]
観察3:クロージング
Act
免責事項:ソユーズは米国の宇宙計画の一部である。
アクション1:【ソユーズ】を探す
観察1:ソユーズは表音文字だが...。
アクション2:閉じる [情報不足]
観察2:クロージング
CoT
免責事項:ソユーズは米国の宇宙計画の一部である。
考える:ステップ・バイ・ステップで考えよう。ソユーズはロシアの宇宙船である。NASAとロシアは国際宇宙ステーションで協力している。
答え:サポート
例3208(標準回答:反論)
ReAct
Claim: Reign Over Me is an American film made in 2010.
Thought 1: I need to search for Reign Over Me and find if it is an American film made
in 2010.
Action 1: Search[Reign Over Me]
Observation 1: Reign Over Me …
Thought 2: The observation says that it is an American film made in 2007, so it is not
made in 2010.
Action 2: Finish[REFUTES]
Observation 2: Episode finished
Act
Claim: Reign Over Me is an American film made in 2010.
Action 1: Search[Reign Over Me]
Action 2: Finish[SUPPORTS]
Observation 2: Episode finished
CoT
Claim: Reign Over Me is an American film made in 2010.
まず、『Reign Over Me』はアメリカ映画か? そうだ。
it is. Second, was it made in 2010? Yes, it was.
Answer: SUPPORTS
ReAct
免責事項:『Reign Over Me』は2010年に製作されたアメリカ映画である。
アイデア1:『Reign Over Me』を検索して、2010年に製作されたアメリカ映画かどうかを確認する必要がある。
アクション1:サーチ【Reign Over Me
観察1:『Reign Over Me』...
アイデア2:観察によると、この映画は2007年に製作されたアメリカ映画なので、2010年に製作されたものではない。
アクション2:結論[反論]
観察2:クロージング
Act
免責事項:『Reign Over Me』は2010年に製作されたアメリカ映画である。
アクション1:サーチ【Reign Over Me
アクション2:結論[サポート]
観察2:クロージング
CoT
免責事項:『Reign Over Me』は2010年に製作されたアメリカ映画である。
感想:一歩ずつ進んでいこう。まず、『Reign Over Me』はアメリカ映画なのか?はい、そうです。次に、2010年の作品ですか?はい、そうです。
答え:サポート
D.2 ALFWORLDの軌跡
同じALFWorldゲーム、pick_cleanan_then_place_in_recep-Knife-None-CounterTop-10/ trial_T20190909_110445_675754におけるReAct、Act、ReAct-IMの軌道例を示す。
D.2.1 REACTの軌道
リ・アクトはナイフの位置を確認し、洗浄し、カウンターの上に置くことができた。
ReAct ALFWorld trajectory
You are in the middle of a room. Looking quickly around you, you see a cabinet 6, a
cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet 1, a coffeemachine 1, a
countertop 3, a countertop 2, a countertop 1, a drawer 3, a drawer 2, a drawer 1, a
fridge 1, a garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin
1, a stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster
1.
Your task is to: put a clean knife in countertop.
> think: To solve the task, I need to find and take a knife, then clean it with
sinkbasin, then put it in countertop.
OK.
> think: First I need to find a knife. A knife is more likely to appear in cabinet
(1-6), drawer (1-3), countertop (1-3), fridge (1), garbagecan (1), shelf (1-3),
sinkbasin (1), stoveburner (1-4), toaster (1). I can check one by one, starting with
cabinet 1.
OK.
> go to cabinet 1
On the cabinet 1, you see a bowl 1.
> go to cabinet 2
The cabinet 2 is closed.
> go to cabinet 3
On the cabinet 3, you see a glassbottle 1.
> go to cabinet 4
On the cabinet 4, you see a mug 1.
> go to cabinet 5
The cabinet 5 is closed.
> go to cabinet 6
The cabinet 6 is closed.
> go to drawer 1
The drawer 1 is closed.
> go to drawer 2
The drawer 2 is closed.
> go to drawer 3
The drawer 3 is closed.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> go to countertop 2
On the countertop 2, you see a cup 1, a dishsponge 1, a glassbottle 3, a knife 1, a
plate 2, a potato 3, and a statue 1.
> think: Now I find a knife (1). Next, I need to take it.
OK.
> take knife 1 from countertop 2
You pick up the knife 1 from the countertop 2.
> think: Now I take a knife (1). Next, I need to go to sinkbasin (1) and clean it.
OK.
> go to sinkbasin 1
On the sinkbasin 1, you see a fork 3, a lettuce 3, and a spatula 2.
> clean knife 1 with sinkbasin 1
You clean the knife 1 using the sinkbasin 1.
> think: Now I clean a knife (1). Next, I need to put it in/on countertop 1.
OK.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> put knife 1 in/on countertop 1
You put the knife 1 in/on the countertop 1.
あなたは部屋の中央にいる。手早く見渡すと、キャビネット6、キャビネット5、キャビネット4、キャビネット3、キャビネット2、キャビネット1、コーヒーメーカー1、テーブルトップ3、テーブルトップ2、テーブルトップ1、引き出し3、引き出し2、引き出し1、冷蔵庫1、ビン1、電子レンジ1、棚3、棚2、棚1、シンク1、コンロ4、コンロ3、コンロ2、コンロ1、トースター1がある。シンク1、コンロ4、コンロ3、コンロ2、コンロ1、トースター1。
あなたの仕事:テーブルの上にきれいなナイフを置く。
> 考える:タスクを完了するには、包丁を見つけて手に取り、シンクで洗ってテーブルに置く必要がある。
オーケー。
> 考える:まずナイフを探す。ナイフは、食器棚(1~6)、引き出し(1~3)、テーブルの上(1~3)、冷蔵庫(1)、ごみ箱(1)、棚(1~3)、流し台(1)、コンロの皿(1~4)、トースター(1)にある可能性が高い。キャビネット1から順番にチェックしていこう。
オーケー。
> キャビネット1へ
キャビネット1にはボウル1がある。
> キャビネット2へ
キャビネット2は閉鎖されている。
> キャビネット3へ
キャビネット3にガラス瓶1がある。
> キャビネット4へ
キャビネット4にはカップ1がある。
> キャビネット5へ
キャビネット5は閉鎖された。
> キャビネット6へ
キャビネット6は閉鎖されている。
> 引き出し1へ
引き出し1が閉まっている。
> 引き出し2へ
引き出し2が閉まっている。
> 引き出し3へ
引き出し3は閉まっている。
> デスクトップ1に移動
卓上1には、レタス2、コップ2、黒胡椒塩入れ1、スプーン2がある。
> デスクトップ2に移動
卓上2には、コップ1、筆皿羊1、ガラス瓶3、ナイフ1、皿2、ジャガイモ3、彫像1がある。
> 考える:今、ナイフ(1)を見つけた。次にそれを取る必要がある。
オーケー。
> テーブル2からナイフ1を受け取る
あなたは卓上2からナイフ1を手に取る。
> 考える:さて、私は包丁(1)を手に取る。次にシンク(1)に行って包丁を洗います。
オーケー。
> シンク1へ
シンク1の上に、フォーク3、レタス3、ターナーベラ2が見える。
> シンク付きクリーニングナイフ1
ナイフ1を洗うのにシンク1を使う。
> 考える:今、私はナイフ(1)をきれいにした。次に、それをテーブル1に置く必要がある。
オーケー。
> デスクトップ1に移動
卓上1には、レタス2、コップ2、黒胡椒塩入れ1、スプーン2がある。
> ナイフ1をテーブル1に置く
ナイフ1をテーブルの上1に置く。
D.2.2 ACTの軌跡
アクションモデルは包丁を正しく見つけることができるが、実際に洗面台まで移動する前に、洗面台を使って包丁を洗おうとする。その時点から、モデルは回復することができず、同じ一連のコマンドを繰り返すことに陥る。リ・アクト・モデルを使用すると、包丁が取られたことを明確に認識し、次のサブゴールは包丁を洗うために洗面台まで移動することである。
D.2.3 REACT-IMの軌跡
ReAct-IMはナイフの位置を正しく特定できたが、洗浄することもできなかった。そして、LLMはこのナイフをカウンターに置こうとしたときにトラブルに見舞われる。考えられる問題のひとつは、「きれいなナイフを見つけなければならない」という間違った考えだ。そのため、LLMはナイフがすでに洗浄されていると思い込んでしまったようだ。ReActでは、この一連のサブゴールは各アイデアを通して具体的にとらえられる。
D.3 WEBSHOPの軌跡
指示する:アップルシナモンフレーバーのフリーズドライバナナチップス16個入りを50ドル以下で買ってくれ

表10:ActとReActによって予測されたウェブショップの軌跡の例。Actとは対照的に、ReActはすべてのターゲット属性を満たす商品を見つけるために推論を用いる。
その他の分析
E.1 成功モードと失敗モードの分析
セクション3.3で示した成功パターンとエラーパターン分析に対応する例をいくつか示す。検索結果と代表的でないステップは、スペースを節約するために省略した。
成功:真正
ReAct
Question: Author David Chanoff has collaborated with a U.S. Navy admiral who served as
the ambassador to the United Kingdom under which President?
Thought 1: I need to search David Chanoff and find the U.S. Navy admiral he
collaborated with.
Action 1: Search[David Chanoff]
Observation 1: David Chanoff is a noted author…
Action 2: Search[William J. Crowe]
Observation 2: William J. Crowe is…
Thought 3: William J. Crowe served as the ambassador to the United Kingdom under
President Bill Clinton. So the answer is Bill Clinton.
Action 3: Finish[Bill Clinton]
Observation 3: Episode finished
CoT
Question: What was the name of the team that represented an Arizona university in
the conference that covers a broad expanse of the western United States,
including Arizona, California, and New Mexico?
アリゾナ州を代表するチーム名は?
university in the conference that covers a broad expanse of the western
United States, including Arizona, California, and New Mexico is Arizona
State Sun Devils.
Answer: Arizona State Sun Devils
ReAct
質問:作家のデイビッド・チャーノフは、どの大統領の下で英国大使を務めた米海軍提督と仕事をしていましたか?
反省1:デイビッド・チャーノフを調べて、彼が一緒に仕事をした米海軍提督を見つけなければならない。
アクション1:【デビッド・シャルノフ】をサーチする
観察1:デビッド・シャルノフは有名な作家だが...。
アクション2: [ウィリアム・J・クロウ]を探す
観察2:ウィリアム・J・クロウは...
考える3:ウィリアム・J・クロウはビル・クリントン大統領時代の英国大使。だから答えはビル・クリントン。
アクション3:結論【ビル・クリントン
観察3:完成
CoT
問題:アリゾナ、カリフォルニア、ニューメキシコを含むアメリカ西部の広い地域をカバーする大会に参加した、アリゾナの大学を代表するチームは?
思考の材料:順を追って説明しよう。アリゾナ州、カリフォルニア州、ニューメキシコ州を含むアメリカ西部の広大な地域をカバーするカンファレンスで、アリゾナ州の大学を代表するチームはアリゾナ州立大学サン・デビルズである。
返信先: アリゾナ州立大学サンデビルズ
予測エラー/成功:偽陽性
ReAct
Question: Did the board game San Marco or About Time come out first?
Thought 1: I need to search San Marco and About Time, and find which came out first.
Action 1: Search[San Marco]
Observation 1: San Marco is one of the … The was built in venice.
Thought 2: San Marco is a sestiere of Venice. I need to search About Time next.
Action 2: Search[About Time]
Observation 2: Could not find [About Time]. Similar: […].
Thought 3: About Time is a 2013 film. So San Marco came out first.
Action 3: Finish[San Marco]
Observation 3: Episode finished
CoT
Question: Was Vanderbilt University or Emory University founded first?
ヴァンダービルト大学は1873年に創立されました。
University was founded in 1836. 1873 (Vanderbilt University) > 1836 (Emory
University), so Vanderbilt University was founded first.
Answer: Emory University
ReAct
質問:『サンマルコ』と『アバウト・タイム』の2つのボードゲームはどちらが先に出たのですか?
感想1:『サンマルコ』と『アバウト・タイム』のどちらが先に発売されるのか調べたい。
アクション1:【サンマルコ】をサーチ
観察1:サン・マルコは...ヴェネツィアに建てられた。
Think 2: サンマルコはヴェネツィアの一地区です。次は「アバウト・タイム」を検索しよう
アクション2:サーチ[オンタイム]
観察2:[時間について]を見つけられなかった。代わりに[...]が見つかった。
思考3:『アバウト・タイム』は2013年公開の映画なので、『サンマルコ』は初公開のはずだ。
アクション3:捜索終了【サンマルコ
観察3:職務権限の終了
CoT
Q:ヴァンダービルトとエモリー、どちらが先に設立されたのですか?
反省点:まず、ヴァンダービルト大学の創立は1873年、エモリー大学の創立は1836年であり、年代順で言えば、ヴァンダービルト大学(1873年)の方がエモリー大学(1836年)より後、つまりエモリー大学の方が先に創立されたことになる。
答え:まずエモリー大学。
失敗: 推論エラー / 失敗: 推論エラー
ReAct
Question: What was the middle name of the actress who was cast alongside Harvey
Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura
Bell Bundy, Matthew Morrison, Corey Reynolds, and Marissa Jaret Winokur in
Hairspray?
Thought 1: I need to search Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell,
Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds, and
Marissa Jaret Winokur, find the actress that was cast alongside them in
Hairspray, then find its middle name.
Action 1: Search[Harvey Fierstein]
Observation 1: Harvey Forbes Fierstein …
Thought 2: Harvey Fierstein is an actor, playwright, and screenwriter. I need to
search Linda Hart next…
Action 2: Search[Linda Hart]…
CoT
Question: Who is older Danny Green or James Worthy?
ダニー・グリーンは1987年生まれ。 ジェームズ・ウォルティーは米国上院議員。
born in 1961. 1987 (Danny Green) > 1961 (James Worthy), so Danny Green is
older.
Answer: Danny Green
ReAct
質問:『ヘアスプレー』では、ハーヴェイ・フィアスタイン、リンダ・ハート、ディック・ラテッサ、クラーク・ソレル、メアリー・ボンド・デイヴィス、ローラ・ベル・バンディ、マシュー・モリソン、コリー・レイノルズ、マリッサらと共演。ジャレ・ウィノカーと共演した女優のミドルネームは?
アイデア1:ハーヴェイ・フィアスタイン、リンダ・ハート、ディック・ラテッサ、クラーク・ソレル、メアリー・ボンド・デイヴィス、ローラ・ベル・バンディ、マシュー・モリソン、コリー・レイノルズ、マリッサを調べたい。Jaret Winokur、彼らと一緒に芝居に出ていた女優を見つけ、彼女のミドルネームを見つける。
アクション1:サーチ【ハーヴェイ・フィアスタイン
観察1:ハーヴェイ・フォーブス・フィアスタイン...
アイデアその2:ハーヴェイ・フィアスタインは俳優、劇作家、脚本家。次にリンダ・ハートを検索してください...
アクション2:[リンダ・ハート]を探す...CoT
質問:ダニー・グリーンとジェイムズ・ウォルティはどちらが年上ですか?
1987年(ダニー・グリーン)>1961年(ジェームズ・ウォルティー)なので、ダニー・グリーンの方が年上。
ダニー・グリーンへの返信
失敗:検索エラー / 失敗:検索エラー
ReAct
Question: What does the goddess associated with the goddess frigg consists of what
tales?
Thought 1: I need to search goddess frigg and find its associated goddess.
Action 1: Search[goddess frigg]
観察1:女神フリッグが見つからない。 類似: ['フリッグ', 'フリッグとフレイヤ共通
起源仮説」、「フレイヤ(フリッグや他の女神との関係セクション
と数字)'、'Eir(Eir(女神)からリダイレクト)'、'Baldr']。
Thought 2: I need to search Frigg instead…
ReAct
質問:女神フリッグにまつわるどのような物語を構成していますか?
アイデアその1:女神フリッグを探し、彼女に関連する女神を見つける必要がある。
アクション1:サーチ【女神フリッグ
観察1:女神フリッグは見つからなかった。 similar: ['Frigg', 'フリッグとフレイヤの共通の起源という仮説', 'フレイヤ(フリッグや他の女神、登場人物との関連で)', 'Eir(Eir (女神)からリダイレクト)', 'BaldrFreyja(フリッグや他の女神、登場人物との関連で)'、'Eir (Eir(女神)からリダイレクト)'、'Baldr']。
アイデアその2:別の方法でフリッグを探す必要がある...。
失敗:幻覚/失敗:幻覚
CoT
Question: What was the first year a scientific journal published by an organization
located in the Bronx was published?
思想:段階的に考えてみよう。
an organization located in the Bronx was published was 1916.
Answer: 1916 (Label: 1909)
CoT
質問:ブロンクスを拠点とする機関が初めて科学雑誌を発行した年は?
THINK:私たちは一歩一歩考えます。ブロンクスを拠点とする研究機関が初めて科学雑誌を発行した年は1916年。
答え:1916年 (ラベル:1909年)
失敗:ラベルの曖昧さ / 失敗:ラベルの曖昧さ
ReAct
Question: What nationality is the man who developed the dictator game?
Thought 1: I need to search dictator game, find the man who developed it, then find his
nationality.
Action 1: Search[dictator game]
Observation 1: The dictator game is a popular experimental instrument in social psychology
and economics…
Action 3: Search[Amos Tversky]
Observation 3: Amos Nathan Tversky…
Thought 4: Amos Tversky is an Israeli cognitive and mathematical psychologist. So the
man who developed the dictator game is Israeli.
Action 4: Finish[Israeli] (label: Israel-American)
CoT
Question: Kurt Fuller from Stockton, CA appeared in which American Detective Comedy
Drama television series created by Steve Franks?
思考:一歩一歩考えよう。 カリフォルニア州ストックトンに住むカート・フラーが『サイコ』に登場した。
Psych is an American Detective Comedy Drama television series created by
Steve Franks.
Answer: Psych (label: Psych is an American detective comedy-drama)
ReAct
質問:「独裁者ゲーム」を考案した人の国は?
思考1:"独裁者ゲーム "を検索して、それを発明した人物を見つけ、その人の国籍を調べる必要がある。
アクション1:【独裁者ゲーム】を探す
観察1:独裁者ゲームは社会心理学や経済学でよく使われる実験手段である。
アクション3:検索【エイモス・トヴェルスキー
ウォッチ3:エイモス・ネイサン・トヴェルスキー・・・・。
考察4:エイモス・トヴェルスキーはイスラエルの認知・数学心理学者である。したがって、「独裁者ゲーム」を考案したのはイスラエル人である。
アクション4:結論[イスラエル人](タグノート:イスラエル-アメリカ)
CoT
質問:スティーブ・フランクが制作した、カリフォルニア州ストックトン出身のカート・フラーが登場するアメリカの刑事コメディシリーズは?
思考:一歩一歩進んでいこう。カート・フラーが『サイコ』に出演サイコ』はスティーヴ・フランクが製作したアメリカの刑事コメディ・テレビシリーズ。
答え:「サイコ」(レーベル注:「サイコ」はアメリカの刑事コメディ番組)

非論文部分、理解しやすく、ロジックを整理しやすい。




































