原文ママオープンエンドな世界における一般的な能力を持つエージェント [S62816]
1.反射的知性
- 自分で生成したコードやコンテンツをチェックして修正し、繰り返し最適化する能力
- 自省と修正を通じて、より質の高い結果を生み出すことができる
- 幅広い用途に適した、堅牢で効果的な技術である。
2.道具的知性の活用
- 情報収集、分析、行動のためにさまざまなツールを使いこなし、応用範囲を広げる能力
- ツール使用に関する初期の研究は、主にコンピュータ・ビジョンの分野から始まった。
3.プランニング・インテリジェンス
- タスクの目標に基づき、自律的に計画を立案・実行する優れた能力を発揮する。
- ステップに失敗した場合、ある程度の自律性と適応性をもって、失敗を避けるためにルートを変更する能力。
- まだ完全に信頼できるものではないが、機能したときはかなり素晴らしい。
4.協調的マルチインテリジェンス
- 異なる役割を持つ知能を設定し、協力してタスクを完了させることで、単一の知能よりも強い能力を発揮することができる。
- マルチ・インテリジェント・シアは、複雑な開発や創造的な仕事を成し遂げるために、深い対話と分業を行うことができる。
- また、複数のインテリジェンスが議論することも可能であり、これはモデルのパフォーマンスを向上させる効果的な方法である。
我期待与大家分享我在 AI 智能体方面的发现,我认为这是一个令人兴奋的趋势,所有涉及 AI 开发的人都应该关注。同时,我也对所有即将介绍的”未来趋势”充满期待。
では、AIインテリジェントについて話そう。ビッグ・ランゲージ・モデリングは、インテリゲンチャを使わないワークフローで、プロンプトを入力し、答えを生成します。あるトピックについて誰かに記事を書いてもらうとき、キーボードの前に座って、バックスペースも許されないような一発勝負でそれを打ち込むようなものだ。このタスクの難しさにもかかわらず、大規模な言語モデルは驚くほどよく機能している。
対照的に、AIインテリジェンスを使ったワークフローは次のようになるかもしれない。AIや大きな言語モデルに記事のアウトラインを書かせる。オンラインで何かを調べる必要があるか?必要なら調べればいい。それから初稿を書き、自分で書いた初稿を読んで、どの部分を変えるべきか考える。そして初稿を修正し、次に進む。つまり、このワークフローは反復的なもので、大きな言語モデルを使って少し考え、それから記事を修正し、さらに考え、といった具合だ。この方法がより良い結果をもたらすことに気づいている人はほとんどいない。私は、こうしたAIインテリジェンスのワークフローの結果に自分でも驚いている。
我要做一个案例研究。我的团队分析了一些数据,用的是一个名为”人类评估基准”的编程基准,这是 OpenAI 几年前发布的。这个基准包含一些编程问题,比如给出一个非空的整数列表,求出所有奇数元素或者奇数位置上的元素之和。答案可能是这样一段代码片段。现在,我们很多人会使用零样本提示,意思是我们告诉 AI 写代码,然后让它一次就运行。谁会这样编程?没有人会这样。我们只是写下代码然后运行它。也许你会这样做。我做不到。
しかし、GPT3.5の上にAIインテリジェンスのワークフローを構築すれば、GPT-4よりもさらに良い結果を出すことができる。このワークフローをGPT-4に適用しても、結果は非常に良い。GPT3.5とAIインテリジェンシアのワークフローがGPT-4よりも実際に優れていることにお気づきだろう。つまり、アプリケーションの構築方法に大きな影響を与えることになる。
AIインテリジェンシアという言葉は広く議論されており、AIインテリジェンシアやAIの未来などについて論じたコンサルティング・レポートも数多くある。ここでは、私がAIインテリジェンスで目にする一般的なデザイン・パターンについて、より本質的なことをお話ししたいと思います。この分野は複雑で混乱しており、多くの研究やオープンソースプロジェクトが存在する。いろいろなことが行われている。しかし、私はAIインテリジェンスで何が起こっているのか、より適切な概要を説明しようとしている。
反省はほとんどの人が使うべきツールだと思う。それは機能する。もっと広く使われるべきだと思う。実にロバストなテクニックだ。私が使うと、いつもうまくいく。プランニングとマルチ・インテリジェンス・コラボレーションに関しては、新しい分野だと思う。使ってみると、その効果の高さに驚かされることがある。しかし、少なくとも現時点では、常に安定して機能させることができるかどうかはわからない。それでは、次の数枚のスライドで、これら4つのデザインパターンについて詳しく説明しよう。もし皆さんの中で、これらのパターンを自分で試してみたり、エンジニアにこれらのパターンを使わせたりする人がいれば、生産性の向上がすぐに実感できると思います。
では、リフレクションについて、例を挙げてみよう。私があるシステムにタスクをコーディングするように頼んだとしよう。すると、プログラミング・インテリジェンスが、タスクをコーディングするように促すだけで、例えば、タスクを実行する関数を定義する、そのような関数を書く、といったことができる。自己反省の例として、大きな言語モデルにこのように促すことができます。これはあるタスクのために書かれたコードです。次に、先ほど生成したコードとまったく同じものをもう一度提示する。そしてこのコードが正しいかどうか、効率的かどうか、うまく構造化されているかどうか、このような質問をしながら精査するように求める。その結果、前にコードに対して促したのと同じ大きな言語モデルが、5行目のバグのような問題を発見して修正できるかもしれないことがわかる。といった具合だ。もし今、あなたが再び独自のフィードバックを提示すれば、それはコードのバージョン2を作成し、最初のバージョンよりも良いパフォーマンスを発揮するかもしれない。保証はないが、ほとんどの場合、このアプローチは多くのアプリケーションで試す価値がある。事前にこのことを明らかにしておけば、もしユニットテストを実行するように要求し、ユニットテストに合格しなかったら、なぜユニットテストに合格しなかったのかを尋ねることができる。この対話をすることで、もしかしたら単体テストをパスしなかった理由がわかるかもしれないので、何かを変更してV3バージョンのコードを生成してみてほしい。ところで、これらのテクニックをもっと学びたい人のために、私はとても興奮している。プレゼンテーションの各パートについて、もっと参考になればと思い、お勧めの読み物を下の方に載せておいた。
繰り返しになるが、マルチ・インテリジェント・ボディ・システムをプレビューするために、私はプログラミング・インテリジェント・ボディについて述べている。このアイデアの自然な発展形として、プログラミング知能を1つだけ持つのではなく、プログラミング知能とレビュー知能の2つの知能を設定することができる。これらはすべて同じ大きな言語モデルに基づいていますが、私たちが提供するキューが異なるだけです。一方には、あなたはプログラミングの専門家だからコードを書きなさいと言う。もう一方には、あなたはコードレビューの専門家です、このコードをレビューしてください、と言う。このワークフローを実装するのはとても簡単だ。様々なワークフローに適応できる、非常に汎用性の高いテクニックだと思います。大きな言語モデルのパフォーマンスを大幅に向上させるだろう。
つ目のデザインパターンは、ツールの使用である。大規模な言語モデルをベースにしたシステムがツールをどのように使っているか、ご覧になった方も多いだろう。左はコ・パイロットのスクリーンショットで、右はGPT-4から取り出したものの一部だ。しかし、今日の大きな言語モデルに、ウェブ検索に最適なコピー機はどれかというような質問に答えるよう求めると、コードを生成して実行することになる。実際、分析を行い、情報を集め、行動を起こし、個人の効率を向上させるために、多くの人がさまざまなツールを使っている。
ツールの使用に関する初期の研究の多くは、コンピューター・ビジョンのコミュニティからもたらされた。というのも、大きな言語モデルが登場する前は、画像を処理することができなかったからだ。そのため、唯一の選択肢は、大きな言語モデルに、画像を生成したり物体検出を実行したりといった、画像を操作できる関数を生成させることだった。GPT-4やLLaVAなどの登場以前は、大きな言語モデルは画像について何も知らなかったからだ。そこでツールの利用が登場し、ビッグ言語モデルの応用範囲を広げている。
次はプランニングだ。まだプランニングのアルゴリズムについて掘り下げていない人にとっては、多くの人が チャットGPT 衝撃的な瞬間、行ったことのない感覚。皆さんはおそらく、プランニング・アルゴリズムを使ったことがないと思います。AI知能がここまでできるとは思わなかった。何かが失敗したとき、AIインテリジェンスが失敗を避けるために経路を再計画するような実演をしたことがある。実際、私自身のAIシステムの自律性に驚かされたことが何度かある。
GPTモデルに関する論文から、例えばexample.jpegのような画像に写っている男の子と同じポーズで、本を読んでいる女の子の画像を生成させ、新しい画像に写っている男の子を描写させるという例を適応してみた。既存のAIインテリジェンスを使用すると、まず少年のポーズを決定し、そのポーズを抽出するために、おそらくHuggingFaceプラットフォーム上で適切なモデルを見つけることができます。次に、画像を後処理し、指示に従って女の子の画像を合成し、画像からテキストに変換し、最後にテキストから音声に変換する技術を使用するモデルを見つける必要があります。
現在、我々には数多くのAIインテリジェンスがあり、常に信頼できるわけではなく、時には少々面倒で常に機能するとは限らないが、機能した時の結果はかなり素晴らしい。このようなインテリジェントなボディサイクル・デザインを使えば、時には以前の失敗から立ち直ることさえできる。私はこのようなリサーチ・インテリジェンスを仕事の一部で使い始めている。リサーチ・インテリジェンスに仕事を任せ、しばらくしてから戻ってくると、リサーチ・インテリジェンスが何を見つけたかを確認する。有効な結果が見つかることもあれば、そうでないこともある。しかし、いずれにせよ、これは私の個人的なワークフローの一部になっている。
最后一个设计模式是多智能体协作。这个模式可能看起来有些奇怪,但实际效果比你想象的要好得多。左边是一篇名为”Chat Dev”的论文的截图,这个项目是完全开放的,实际上已经开源了。许多人可能见过那些炫耀的社交媒体发布的”Devin”的演示,在我的笔记本电脑上也可以运行”Chat Dev”。”Chat Dev”是一个多智能体系统的例子,你可以设置一个大语言模型(LLM)去扮演软件工程公司的 CEO、设计师、产品经理,或者测试员等角色。你只需要告诉 LLM,你现在是 CEO,你现在是软件工程师,然后它们就会开始协作,进行深入的对话。如果你告诉它们去开发一个游戏,比如 GoMoki 游戏,它们会花几分钟来编写代码,测试,迭代,然后生成出惊人的复杂程序。虽然并不总是成功,我也遇到过失败的情况,但有时它的表现让人惊叹,而且这个技术正在不断进步。另外,另一种设计模式是让不同的智能体辩论,你可以有多个不同的智能体,比如 ChatGPT 和 ジェミニ ディベートを持つことも、パフォーマンスを向上させる効果的なパターンだ。つまり、複数のシミュレートされたAIインテリジェンスを一緒に働かせることは、非常に強力なデザインパターンであることが証明されている。
全体として、これらは私が観察したデザインパターンであり、私たちの仕事に応用することができれば、AIの成果をより早く向上させることができると思う。知的身体推論のデザインパターンは重要な発展になると思います。
这是我的最后一张幻灯片。我预计,人工智能能做的任务将在今年大幅度扩展,这是由于智能体工作流的影响。有一点人们可能难以接受的是,当我们向 LLM 发送提示词时,我们希望马上得到回应。实际上,十年前我在谷歌进行的一项名为”大盒子搜索”的讨论中,我们输入很长的提示词。我当时未能成功推动这一点,因为当你进行网络搜索时,你希望在半秒钟内得到回应,这是人性。我们喜欢即时的反馈。但是对于很多智能体工作流程,我认为我们需要学会将任务委派给 AI 智能体,并且耐心等待几分钟,甚至可能需要等待几个小时来获取回应。就像我看到的许多新手经理,他们将任务委派给别人,然后五分钟后就去查看情况,这并不高效,我们也需要对一些 AI 智能体这样做,尽管这非常困难。我以为我听到了一些笑声。
加えて、このような急速な トークン LLMは自分自身のためにトークンを読み、トークンを生成します。誰よりも速くトークンを生成できることは素晴らしいことです。多少質の低いLLMからでも、より多くのトークンを素早く生成できることは、質の高いLLMからゆっくりトークンを生成するのとは対照的に、良い結果をもたらすかもしれないと思います。GPT-3とスマートボディアーキテクチャーの最初のスライドで示した結果のように、このアイデアは少し議論の余地があるかもしれません。
正直、楽しみだよ。 クロード 4、GPT-5、Gemini 2.0、そして建設中の他のすべての素晴らしいモデル。GPT-5のゼロサンプル学習でプロジェクトを実行することを楽しみにしているのであれば、初期のモデルでインテリジェンシアと推論を使用することで、予想よりも早くGPT-5のパフォーマンスレベルに近づける可能性があることに気づくかもしれない。これは重要な傾向だと思います。
正直なところ、一般化されたAIへの道のりは、目的地というよりも旅路に近い。しかし、このインテリジェント・ボディ・ワークフローは、その非常に長い旅路の小さな一歩を踏み出す手助けをしてくれるかもしれない。
ありがとう。