反復学習は、エラー・フィードバック・ループによって達成される:
- 実行エージェントがAPIを呼び出してエラー(HTTP 404/500など)を返すと、システムは例外をキャッチする。
- 観測エージェントは、エラーの原因(例:パラメータの欠落/誤ったフォーマット)を分析し、修正案を生成する。
- ベースエージェントは、元のインストラクションをレコメンデーションに適合させる(例えば、必須項目を補足する)。
- 実行エージェントは、新しい実行サイクルを形成するために呼び出しを再度開始する。
例えば、映画をクエリする際にREQUIREDパラメータが欠落している場合、システムはTMDBからのエラーメッセージによってYEARフィールドを補完する必要があることを学習する。このメカニズムにより、知能体は徐々にツールの使用仕様を習得し、最終的にはサンプル数がゼロまたは少ない状態で適応学習を達成することができる。
この答えは記事から得たものである。CoAgents:マルチインテリジェンス・コラボレーションを通じてツールの使い方を学ぶためのフレームワークについて