海外からのアクセス:www.58jingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIニュース

OpenAIがo3とo3-miniを正式にリリース、ARC-AGIベンチマークを破った最初のAIモデルとなる

2024-12-21 2.3 K

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

 

今朝2時、オープンエイの12日間にわたるライブストリーミングはついに最終章を迎えた!

o3はo1ファミリーの後継モデルである。このタイプのモデルの特徴は、質問に答える前にモデルが考える(推論する)時間を増やすことで、答えの精度を高めることである。しかし、OpenAIはネーミングでo2をスキップした。The Informationによると、これは著作権の問題を避けるために行われたもので、英国にはO2という名前の通信会社があり、混乱を引き起こす可能性があったからだという。サム・アルトマンは今日の午後のライブストリームでこれを確認した。

実際、OpenAIは昨日からこのモデルを温めている。そして、すでに開発者はOpenAIのウェブサイトでo3_min_safety_testへの参照を発見している。

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

 

o3 発売日

噂通り、o3と o3-ミニ さあ、いきますよ!残念ながら、o3シリーズのモデルは一般に直接発売されることはなく、まずセキュリティのテストが行われる予定だ。 サム・アルトマンも、今日は発売ではなく、単なる発表だと指摘している。

サム・アルトマンは、1月末頃にo3-miniを発売し、その後すぐにo3のフルモデルを発売する予定だと述べた。

 

o3とo3-miniの違い

o3-mini: o3 miniは、モデルの性能を考慮しながら、推論速度の向上と推論コストの削減に焦点を当てた、よりコストパフォーマンスの高いo3バージョンです。高いパフォーマンスと低コストにより、プログラミングに最適です。

推論時間は、低、中、高の3種類をサポートしている。

 

o1と比べると、o3-miniのCodeforcesでのパフォーマンスは驚くほどコストパフォーマンスが高く、プログラミングに使うには最適なモデルだ。

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

 

数学的な問題では、o3-mini(low)はgpt-4oに匹敵する低レイテンシを達成する。

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

 

o3-miniのすべてのAPI機能と、それに対応する機能を以下に示します:

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

 

o3 適性検査

グーグルから発表されたばかりの「o3」と比べて、「o3」の強さはどうだろうか?ジェミニ2.0フラッシュ思考比較せよ:

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

 

o3の実力は、現在ではほとんどすべてのモデルに真っ向から打撃を与えている。o3の実力を見てみよう。

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

左側。ソフトウェア工学試験(SWE-Bench Verified)。これはプログラムを書くときのテストのようなもので、たとえば、速く正確に、バグ(小さなエラー)がないようにソフトウェアを書く。これは、o3が一流のソフトウェア・エンジニアのように完璧なコードを書けるかどうかをチェックするものです。o3のスコアは71.7%で、o1よりはるかに強力です。o3のスコアは2,727で、全体の175位に相当し、すでに人間の99.99%を上回っている。

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1
O1のコーディング能力は爆発的なものであり、O3はAGIの頂点へ向けてまた大きな一歩を踏み出した。

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1 aIEM 2024は満点に近く、私の記憶が正しければ、AIが満点に近いAIEMが存在するレベルに到達できたのは初めてのことだろう。博士号レベルの科学試験も進化しているが、数学やプログラミングほど激しくはない。

次の数学のベンチマークはもう少し面白い。 OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1 エポック社が開発した数学のベンチマークテスト「rontierMath」は、高度な数学的推論におけるAIの能力を評価するために、60名以上の一流の数学者の協力によって開発されました。また、データ汚染を避けるため、問題はすべてオリジナルで、これまでに出題されたことのない新しい問題です。
以前はGPT-4と ジェミニ 1.5 Pro このモデルは、GSM-8KやMATHといった他の伝統的な数学ベンチマークでは90%以上の成功率であるのとは対照的に、2%未満の成功力で評価に臨む。そして今回はo3 直接25.2.他の主要機種が依然として伝統的な数学ベンチマークを繰り広げている中、o3は本当に別世界に進出した。

 

o3、AIモデルとして初めてARC-AGIベンチマークを更新

ARC Prize Fundationは、「ベンチマークを通じてAGIへの道の北極星となる」ことを目指す非営利団体である。同団体の最初のベンチマークであるARC-AGIは、5年前から提案されているが、いまだ達成されていない。

これまでカムラットは、o3がベンチマークで優れたレベルを達成し、ARC-AGIベンチマークを破った最初のAIモデルになったと発表していた。

ARC-AGI于2019年首次提出,旨在通过一系列抽象和推理任务来测试AI系统的能力。主要是因为传统的技能测量方法并不能有效代表智能,因为它们往往依赖于先前知识和经验,而真正的智能应体现在广泛的适应能力和通用性上。所以,ARC-AGI诞生了,里面的这些任务要求AI识别模式并解决新问题,每个任务由输入输出示例组成。这些任务以网格形式呈现,每个方块可以是十种颜色中的一种,网格的大小可以从1×1到30×30不等。参与者需要根据给定的输入生成正确的输出,测试其推理和抽象能力。可以简单的理解成,找规律。大概就是这样的: OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

 

在 ARC-AGI 基准中,AI 需要根据配对的「输入 – 输出」示例寻找规律,然后再基于一个输入预测输出,下图展示了一些例子。参加过毕业季招聘或公务员考试的人或许对此类图形推理问题并不陌生。
OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

 

非常に難解で抽象的。歴代モデルの評価はこちら:
o3ファミリーのモデルは、ARC-AGIベンチマークで最低75.7%の性能を達成すると言われており、o3は、より多くの計算資源を使って長時間思考させれば、さらに87.5%に達することができる。
OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1 0%から5%までは丸5年かかったが、5%から87.5%までは半年しかかからなかった。AGIへの道にもはや障害はない。

 

o3 モデルの仕組み

現時点では、o3モデルがどのように機能するかについて、少し推測することしかできない。 トークン 自然言語プログラムの検索と実行のための空間 - テスト中、モデルは、タスクを解決するために必要なステップを記述する可能な思考連鎖の空間を検索します。アルファゼロスタイルのモンテカルロ木探索に似た方法で。o3の場合、探索はある種の評価モデルによって導かれるかもしれない。ディープマインドのデミス・ハサビスが2023年6月のインタビューで、ディープマインドがこのコンセプトに取り組んでいることをほのめかしていたことは注目に値する。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

受信箱

お問い合わせ

トップに戻る

ja日本語