ARC-AGI-3で全AIが1%未満! 「知能テスト」が暴いたAIの本当の実力
「AIはもう人間を超えた」 「AGI(汎用人工知能)はもうすぐ実現する」
こんな話を最近よく耳にしませんか?
たしかにChatGPTやClaudeは驚くほど賢く見えます。コードも書けるし、論文も要約できる。でも本当に「知能」があるのでしょうか?
2026年3月25日、その答えを突きつけるベンチマークが発表されました。ARC-AGI-3です。
結果は衝撃的でした。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro——最先端AIモデルが、すべてスコア1%未満。一方、人間のスコアは**100%**です。
この記事では、ARC-AGI-3の全貌と、AIの「本当の実力」を解説します。
ARC-AGI-3とは何か — AIの「知能テスト」が生まれ変わった
ARC-AGI-3を理解するには、その生みの親を知る必要があります。
François Chollet(フランソワ・ショレ) は、深層学習ライブラリ「Keras」の作成者として知られるAI研究者です。2019年に論文「On the Measure of Intelligence」を発表しました。
Cholletの主張はシンプルです。
「知能とは、未知のタスクにどれだけ早く適応できるかだ」
大量のデータで学習した結果を再現する能力ではありません。初めて見る問題を解く能力こそが知能だ、というわけです。
この考えから生まれたのがARC-AGIシリーズです。
シリーズの進化
- ARC-AGI-1(2019年): 静的なグリッドパズル。2024年にOpenAIのo3が87%を達成し、ほぼ解決済み
- ARC-AGI-2(2025年): より複雑なパズル。Gemini 3.1 Proが77.1%を記録
- ARC-AGI-3(2026年3月25日): 完全インタラクティブ型に刷新
ARC-AGI-3の最大の革新点は、パズルを完全に廃止したことです。
代わりに導入されたのは、数百の手作りターン制ゲーム環境です。各ゲームにはルールの説明がなく、目標も示されません。AIは自分で環境を探索し、仕組みを理解し、勝利条件を見つけ出す必要があります。
2024年にGoogleを退社したCholletは、Zapier共同創業者のMike Knoopと共にARC Prize Foundationを設立。ローンチイベントは3月25日、サンフランシスコのY Combinator本部で開催されました。
衝撃の結果 — GPT-5もClaudeもGeminiも1%未満
ARC-AGI-3が何かわかったところで、実際の結果を見てみましょう。
2026年3月時点の各モデルのスコアです。
- Gemini 3.1 Pro Preview: 0.37%
- GPT-5.4 (High): 0.26%
- Claude Opus 4.6: 0.25%
- Grok-4.20: 0.00%
- 人間: 100%
これは誤植ではありません。最先端AIが0.25〜0.37%で、人間は100%です。
さらに注目すべきは、単純なCNNとグラフ探索を組み合わせたアプローチが**12.58%**を記録したことです。LLMの30倍以上のスコアです。
撮影: Alicia Christin Gerald / Unsplash
スコアの仕組み: RHAE
ARC-AGI-3では「RHAE(Relative Human Action Efficiency)」という指標を使います。
「人間と比べて、AIがどれだけ効率的にタスクを解いたか」を測る指標です。計算式は (人間のアクション数 ÷ AIのアクション数)² です。
二乗計算なので、ペナルティは急激に大きくなります。人間が10アクションで解いた問題を、AIが100アクションかけた場合、スコアは10%ではなく**1%**です。
厳しいスコアリングですが、人間は100%を達成しています。つまり人間はAIの数百倍効率的にゲームを攻略できるのです。
なぜAIは惨敗したのか — 「パターン認識」と「知能」の違い
衝撃の結果を見てきましたが、なぜこれほどの差がついたのでしょうか。
「ARC-AGI-2では77%だったのに、なぜv3で0.37%?」と思った方もいるでしょう。答えは、テストの本質が根本的に変わったことにあります。
現在のAIの本質は「パターンマッチング」
GPT-5やClaudeは、膨大なテキストデータからパターンを学習しています。文章生成、コード補完、翻訳など多くのタスクで人間を凌駕します。
しかし、ARC-AGI-3が求めるのは全く別の能力です。
- 探索: 未知の環境で積極的に情報を集める
- モデリング: 環境の仕組みを理解するメンタルモデルを構築する
- 目標設定: 指示なしに自分で目標を推測する
- 計画立案: 戦略を立てて実行し、修正する
これらは人間が日常的に行っていることです。初めて訪れた街で目的地を探す。初めて遊ぶボードゲームのルールを推測する。こうした「未知への適応」が、現在のAIには極めて難しいのです。
なぜ単純なCNNがLLMに勝ったのか
LLMより単純なCNN+グラフ探索が12.58%を記録した理由もここにあります。
LLMは「言語」に最適化されています。しかしARC-AGI-3のゲーム環境は言語ではありません。視覚的な状態遷移の探索が求められる問題では、探索に特化したアルゴリズムのほうが有利です。
「大きなモデル=賢いモデル」ではないということです。
ARC-AGI-3への批判 — この結果をどう受け止めるべきか
AIの限界が見えましたが、公平を期すために批判的な視点も押さえておきましょう。
批判1: 入力形式の不公平さ
人間はゲームを画面の映像で見ますが、AIはJSON形式のデータで受け取ります。ある研究者がClaude Opusに視覚入力を与えたところ、特定の環境で0%から97.1%にスコアが跳ね上がりました。
これに対しCholletの財団は「入力形式は性能の制限要因ではない」と反論。特定環境で高スコアが出ても汎化しないためです。
批判2: スコアリングが厳しすぎる
二乗計算のペナルティは非常に厳しいです。「AIは問題を解けているが、効率が悪いだけ」という見方もあります。
批判3: 135環境で汎用知能を測れるのか
テスト範囲が限定的ではないか、という根本的な疑問もあります。
Cholletの反論
Cholletの回答はこうです。
「AGIのGは"汎用"を意味する。汎用知能なら、特別な準備なしにどんな新しいタスクでも解けるはずだ。人間が説明書なしでゲームを攻略できるなら、真のAGIにも同じことができるべきだ」
賛否はありますが、現在のAIに明確な弱点があることは事実です。
AIとの正しい付き合い方 — 「得意なこと」と「苦手なこと」を知る
ここまでの議論を踏まえて、私たちはどうすればいいのでしょうか。
AIが得意なこと
- 大量のテキストやコードのパターン認識
- 既知タスクの高速処理(翻訳、要約、コード生成)
- 学習済みデータに基づく推論
AIが苦手なこと
- 未知の環境への適応
- ルール不明な状況での目標設定
- 試行錯誤による自律学習
実務で活かす3つのポイント
1. AIには明確な指示を与える
AIは「指示された範囲で最高のパフォーマンス」が得意です。明確なゴールと条件を設定すれば、人間以上の速度で仕事をこなします。「何をすべきか考えて」と丸投げするのは、今のAIの苦手分野です。
2. 未知の問題は人間が判断する
新規事業の立ち上げ、前例のないトラブル対応、創造的な戦略立案。こうした「未知の領域」はまだ人間の得意分野です。AIに相談はしても、最終判断は人間がすべきでしょう。
3. AIの進化を追い続ける
ARC Prize 2026は総額200万ドルのコンペティションです。6月30日と9月30日にマイルストーン、12月4日に最終結果が発表されます。
Kaggleから参加もできます。 https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3
まとめ
- ARC-AGI-3は「ルールも目標もない環境でAIの知能を測る」初のインタラクティブベンチマーク
- GPT-5.4、Claude、Geminiなど全フロンティアモデルが1%未満、人間は100%
- 現在のAIは「パターン認識」に優れるが、「未知への適応」は極めて苦手
- 批判もあるが、AIに明確な弱点があることは事実
- AIの得意・苦手を理解して正しく活用しよう
AIがどれだけ賢くなっても、「初めてのゲームを自力で攻略する」ことはまだできません。この事実を知っているだけで、AIへの過度な期待も過度な恐怖も手放せるのではないでしょうか。
参考リンク
- ARC-AGI-3 公式ローンチ記事(ARC Prize Foundation)
- ARC-AGI-3 リーダーボード — 各モデルのスコア一覧
- On the Measure of Intelligence — Cholletの原論文(arXiv)
#AI #ARCAGI3 #人工知能 #テクノロジー #ベンチマーク #AGI #プログラミング #機械学習