ARC-AGI-3で全AIが1%未満！「知能テスト」が暴いたAIの本当の実力

「AIはもう人間を超えた」「AGI（汎用人工知能）はもうすぐ実現する」

こんな話を最近よく耳にしませんか？

たしかにChatGPTやClaudeは驚くほど賢く見えます。コードも書けるし、論文も要約できる。でも本当に「知能」があるのでしょうか？

2026年3月25日、その答えを突きつけるベンチマークが発表されました。ARC-AGI-3です。

結果は衝撃的でした。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro——最先端AIモデルが、すべてスコア1%未満。一方、人間のスコアは**100%**です。

この記事では、ARC-AGI-3の全貌と、AIの「本当の実力」を解説します。

ARC-AGI-3とは何か — AIの「知能テスト」が生まれ変わった

ARC-AGI-3を理解するには、その生みの親を知る必要があります。

François Chollet（フランソワ・ショレ） は、深層学習ライブラリ「Keras」の作成者として知られるAI研究者です。2019年に論文「On the Measure of Intelligence」を発表しました。

Cholletの主張はシンプルです。

「知能とは、未知のタスクにどれだけ早く適応できるかだ」

大量のデータで学習した結果を再現する能力ではありません。初めて見る問題を解く能力こそが知能だ、というわけです。

この考えから生まれたのがARC-AGIシリーズです。

シリーズの進化

ARC-AGI-1（2019年）: 静的なグリッドパズル。2024年にOpenAIのo3が87%を達成し、ほぼ解決済み
ARC-AGI-2（2025年）: より複雑なパズル。Gemini 3.1 Proが77.1%を記録
ARC-AGI-3（2026年3月25日）: 完全インタラクティブ型に刷新

ARC-AGI-3の最大の革新点は、パズルを完全に廃止したことです。

代わりに導入されたのは、数百の手作りターン制ゲーム環境です。各ゲームにはルールの説明がなく、目標も示されません。AIは自分で環境を探索し、仕組みを理解し、勝利条件を見つけ出す必要があります。

2024年にGoogleを退社したCholletは、Zapier共同創業者のMike Knoopと共にARC Prize Foundationを設立。ローンチイベントは3月25日、サンフランシスコのY Combinator本部で開催されました。

衝撃の結果 — GPT-5もClaudeもGeminiも1%未満

ARC-AGI-3が何かわかったところで、実際の結果を見てみましょう。

2026年3月時点の各モデルのスコアです。

Gemini 3.1 Pro Preview: 0.37%
GPT-5.4 (High): 0.26%
Claude Opus 4.6: 0.25%
Grok-4.20: 0.00%
人間: 100%

これは誤植ではありません。最先端AIが0.25〜0.37%で、人間は100%です。

さらに注目すべきは、単純なCNNとグラフ探索を組み合わせたアプローチが**12.58%**を記録したことです。LLMの30倍以上のスコアです。

パズルのイメージ撮影: Alicia Christin Gerald / Unsplash

スコアの仕組み: RHAE

ARC-AGI-3では「RHAE（Relative Human Action Efficiency）」という指標を使います。

「人間と比べて、AIがどれだけ効率的にタスクを解いたか」を測る指標です。計算式は (人間のアクション数 ÷ AIのアクション数)² です。

二乗計算なので、ペナルティは急激に大きくなります。人間が10アクションで解いた問題を、AIが100アクションかけた場合、スコアは10%ではなく**1%**です。

厳しいスコアリングですが、人間は100%を達成しています。つまり人間はAIの数百倍効率的にゲームを攻略できるのです。

なぜAIは惨敗したのか — 「パターン認識」と「知能」の違い

衝撃の結果を見てきましたが、なぜこれほどの差がついたのでしょうか。

「ARC-AGI-2では77%だったのに、なぜv3で0.37%?」と思った方もいるでしょう。答えは、テストの本質が根本的に変わったことにあります。

現在のAIの本質は「パターンマッチング」

GPT-5やClaudeは、膨大なテキストデータからパターンを学習しています。文章生成、コード補完、翻訳など多くのタスクで人間を凌駕します。

しかし、ARC-AGI-3が求めるのは全く別の能力です。

探索: 未知の環境で積極的に情報を集める
モデリング: 環境の仕組みを理解するメンタルモデルを構築する
目標設定: 指示なしに自分で目標を推測する
計画立案: 戦略を立てて実行し、修正する

これらは人間が日常的に行っていることです。初めて訪れた街で目的地を探す。初めて遊ぶボードゲームのルールを推測する。こうした「未知への適応」が、現在のAIには極めて難しいのです。

なぜ単純なCNNがLLMに勝ったのか

LLMより単純なCNN+グラフ探索が12.58%を記録した理由もここにあります。

LLMは「言語」に最適化されています。しかしARC-AGI-3のゲーム環境は言語ではありません。視覚的な状態遷移の探索が求められる問題では、探索に特化したアルゴリズムのほうが有利です。

「大きなモデル＝賢いモデル」ではないということです。

ARC-AGI-3への批判 — この結果をどう受け止めるべきか

AIの限界が見えましたが、公平を期すために批判的な視点も押さえておきましょう。

批判1: 入力形式の不公平さ

人間はゲームを画面の映像で見ますが、AIはJSON形式のデータで受け取ります。ある研究者がClaude Opusに視覚入力を与えたところ、特定の環境で0%から97.1%にスコアが跳ね上がりました。

これに対しCholletの財団は「入力形式は性能の制限要因ではない」と反論。特定環境で高スコアが出ても汎化しないためです。

批判2: スコアリングが厳しすぎる

二乗計算のペナルティは非常に厳しいです。「AIは問題を解けているが、効率が悪いだけ」という見方もあります。

批判3: 135環境で汎用知能を測れるのか

テスト範囲が限定的ではないか、という根本的な疑問もあります。

Cholletの反論

Cholletの回答はこうです。

「AGIのGは"汎用"を意味する。汎用知能なら、特別な準備なしにどんな新しいタスクでも解けるはずだ。人間が説明書なしでゲームを攻略できるなら、真のAGIにも同じことができるべきだ」

賛否はありますが、現在のAIに明確な弱点があることは事実です。

AIとの正しい付き合い方 — 「得意なこと」と「苦手なこと」を知る

ここまでの議論を踏まえて、私たちはどうすればいいのでしょうか。

AIが得意なこと

大量のテキストやコードのパターン認識
既知タスクの高速処理（翻訳、要約、コード生成）
学習済みデータに基づく推論

AIが苦手なこと

未知の環境への適応
ルール不明な状況での目標設定
試行錯誤による自律学習

実務で活かす3つのポイント

1. AIには明確な指示を与える

AIは「指示された範囲で最高のパフォーマンス」が得意です。明確なゴールと条件を設定すれば、人間以上の速度で仕事をこなします。「何をすべきか考えて」と丸投げするのは、今のAIの苦手分野です。

2. 未知の問題は人間が判断する

新規事業の立ち上げ、前例のないトラブル対応、創造的な戦略立案。こうした「未知の領域」はまだ人間の得意分野です。AIに相談はしても、最終判断は人間がすべきでしょう。

3. AIの進化を追い続ける

ARC Prize 2026は総額200万ドルのコンペティションです。6月30日と9月30日にマイルストーン、12月4日に最終結果が発表されます。

Kaggleから参加もできます。 https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3

まとめ

ARC-AGI-3は「ルールも目標もない環境でAIの知能を測る」初のインタラクティブベンチマーク
GPT-5.4、Claude、Geminiなど全フロンティアモデルが1%未満、人間は100%
現在のAIは「パターン認識」に優れるが、「未知への適応」は極めて苦手
批判もあるが、AIに明確な弱点があることは事実
AIの得意・苦手を理解して正しく活用しよう

AIがどれだけ賢くなっても、「初めてのゲームを自力で攻略する」ことはまだできません。この事実を知っているだけで、AIへの過度な期待も過度な恐怖も手放せるのではないでしょうか。

参考リンク

#AI #ARCAGI3 #人工知能 #テクノロジー #ベンチマーク #AGI #プログラミング #機械学習

ARC-AGI-3で全AIが1%未満！「知能テスト」が暴いたAIの本当の実力

ARC-AGI-3で全AIが1%未満！「知能テスト」が暴いたAIの本当の実力

ARC-AGI-3とは何か — AIの「知能テスト」が生まれ変わった