CoAgentsは、道具を使うタスクを3つの専門的な知性に分解することで、能力を達成する:
- ベースエージェントユーザーの意図を実行可能な命令に変換し、「何をすべきか」という問題を解決する。
- 実行エージェントツール/APIの実際の呼び出しに特化し、「How to」問題を解決する。
- 観測エージェント返された生のデータから構造化された情報を抽出し、「結果は何か」という問題を解決する。
この3つは閉ループのワークフローを形成し、実行エラーが発生したときに環境からのフィードバックによって繰り返し最適化することができる。例えば、TMDBの場合、ユーザーは「SF映画を探す」と入力し、ベースエージェントはAPIクエリコマンドを生成し、実行エージェントは/searchインターフェースを呼び出し、観測エージェントはJSON結果からタイトル/評価などのキーフィールドを抽出する。この役割分担により、LLMは複雑なツールをより正確に使用することができる。
この答えは記事から得たものである。CoAgents:マルチインテリジェンス・コラボレーションを通じてツールの使い方を学ぶためのフレームワークについて