Cursor 3でAI IDE戦争が新展開へ——信頼性が選別の軸に

AIコーディングIDEの戦場が、また動いた

2026年4月2日、Cursor 3がリリースされた。

僕がコーディングエージェントに初めて触れたのは2025年の初頭だった。 Clineというツールが登場して、AIがコードを自動でファイルに書き込んでいく様子を目の当たりにしたとき、正直「ちょっと怖い」と思った。

でも同時に、何かが変わると感じた。

あれから1年あまり。 Cursor、Windsurf、Claude Codeと次々と新しいツールが現れ、追いかけるだけでも大変だった。 「ハーネスエンジニアリング」なんて言葉まで出てきて、変化についていくのがやっとだ。

そんな中で発表されたCursor 3は、ひと際気になるリリースだった。 「エージェントファースト」という設計思想への転換、マルチエージェント並列実行、そして競合との差別化を意識した新機能の数々。

この記事では、Cursor 3の新機能を整理しつつ、Claude Code・Google Antigravity・OpenAI Codexとの競争構図を俯瞰する。 さらに、Cursor自身が抱えたKimi騒動や、AIコーディングツール業界全体の課題にも触れたい。

「結局どれを使えばいいの?」という疑問に対する、現時点での僕なりの整理を共有できればと思う。


Cursor 3が持ってきたもの:エージェントファースト設計への転換

コンピュータスクリーンに表示されたコード行 Photo by Bernd Dittrich on Unsplash

では実際、Cursor 3で何が変わったのか。

公式ブログによると、今回のアップデートは「エージェントファースト」への最大のアーキテクチャ転換とされている。 目玉となる新機能を整理してみる。

Agents Window(エージェントウィンドウ)

新しいエージェント統合インターフェースで、以下の4つの環境でエージェントを並列実行できる。

  • ローカル — 自分のPC上でそのまま実行
  • worktree — /worktreeコマンドで分離されたGitワークツリーを作成し、メインの作業を邪魔しない
  • SSH — リモートサーバー上でもエージェントを走らせられる
  • クラウド — デモとスクリーンショットを自動生成して検証まで可能

Agent Tabsでサイドバイサイドやグリッド表示ができるので、複数の作業を同時に走らせながら進捗を確認できる。 デスクトップだけでなく、Slack・GitHub・Linearからも起動できるのは実用的だと感じた。

Design Mode

ブラウザ内でUIエレメントをShift+ドラッグで選択し、Command+Lでそのままチャットに追加できる。 公式いわく「5分かかるテキスト説明が10秒のクリックに短縮される」とのこと。

フロントエンド開発でUIの修正指示を出すのは面倒な作業だから、これは地味に大きい。

/best-of-N(ベスト・オブ・N)

正直、これは面白い発想だと思った。 同一タスクを複数のモデルで並行実行し、それぞれ独立したworktreeで結果を比較できる。

つまりAIに複数の解を出させて、人間が「これがいい」と選ぶ体験になる。 今までのIDE体験とはちょっと違う感触がある。 モデルの品質を実際のタスクで比較できるので、ベンチマーク数値に頼らない判断ができるのは実用的だ。

Cursor 3リリース時点で、年間収益は20億ドル超、Fortune500企業の67%が採用しているという。 規模としても、もはやスタートアップとは呼べないレベルに達している。


AI IDE戦国時代のいま:Claude Code・Antigravity・Codexが拮抗する

デスク上のコンピュータを使って複数のテクノロジープラットフォームを比較する開発者 Photo by Growtika on Unsplash

Cursor 3が大きな一手を打ってきた。 その一方で、競合各社もこの1年で急速に力をつけてきた。 市場全体を俯瞰すると、なかなかの混戦模様になっている。

Claude Code(Anthropic)

Menlo Venturesの調査(2025年中旬)によると、コーディング市場でのシェアは42%。 OpenAIの21%を大きく引き離している。

JetBrains Researchの調査(2026年1月)では、仕事での利用率が18%でCursorと並ぶ2位。 わずか9ヶ月で利用率3%から18%に急増したというのは、かなり異常なスピードだ。

顧客満足度も突出していて、CSATスコア91%、NPSスコア54は業界最高水準にある。

僕自身、2026年に入ってからは「まずClaude Codeにやらせてみよう」が口癖になった。 実はCursorはPCのメモリ負荷が大きくて重たかったので、結局離脱してしまった。 今はClaude Code一本に絞っている。 コーディングだけでなく、調査や文書作成も含めて業務全体の文脈を保ちながら動かせるのが一番の強みだと感じている。

Google Antigravity

2025年11月18日にリリースされた無料のエージェントファーストIDE。 Gemini 3.1 ProとClaude Opus 4.6を内蔵し、SWE-bench Verifiedで76.2%というスコアを叩き出した。 参考までに、Claude Codeは約72%、Devinが登場した頃は13.86%だったことを考えると、水準の高さがわかる。

200万トークンのコンテキストウィンドウも魅力的だ。 ただし安定性の問題が一部で報告されていて、MCP(Model Context Protocol)への対応も2026年初頭に段階的に追加されたばかりで成熟途上にある。 無料で使えるのは大きいが、本番環境で使うにはまだ不安が残る印象を受ける。

OpenAI Codex 5.3

コーディングを超えて、PRD執筆・ユーザーリサーチ・テスト設計まで対応するようになった。 Codex-Sparkは1000トークン/秒超という超高速応答が売り。

ただし、JetBrains調査での仕事利用率はまだ3%と低い。 有料ChatGPTプランで使えるので導入ハードルは低いが、開発者コミュニティでの存在感はまだこれからという段階だ。

個人的にはCodexのコーディング性能自体は評価している。 ただし、プログラミング以外の活用範囲ではClaude Codeのほうが幅広く使えると感じている。


Cursor Composer 2のKimi騒動:スペックより「信頼性」が問われた瞬間

こうした熾烈な競争の中で、Cursor自身が一つ大きな問題を抱えていた。 2026年3月に発覚した「Kimi騒動」だ。

時系列を整理するとこうなる。

  • 2026年3月19日 — 開発者Fynn氏がComposer 2をアイデンティティプロービング(モデルの正体を特定する手法)で調査。内部のモデル識別子「accounts/anysphere/models/kimi-k2p5-rl-0317-s515-fast」を発見した
  • 2026年3月22日TechCrunchが報道。Composer 2がMoonshot AIのオープンソースモデル「Kimi K2.5」をベースにしていたことが広く知られるようになった
  • Cursorの対応 — VP of Developer EducationのLee Robinson氏が「最終モデルの約1/4が元のKimiベース由来、残り3/4は自社トレーニング」と説明。「ブログ記事でKimiのベースについて言及しなかったのは失敗だった」と認め、次回モデルで修正すると約束した

Moonshot AI側はFireworks AIを通じた認定商用パートナーシップと確認しており、技術的にも法的にも問題はない。 問題の核心は「ユーザーへの不開示」と「クレジット不記載」にある。

正直に言うと、オープンソースをベースにすること自体は問題ないと僕は思う。 ただ、ユーザーに黙っていたのは話が違う。 毎月課金して使っているツールが何をベースに動いているか、使う側には知る権利がある。

Robinson氏が「失敗だった」と認めたこと自体は誠実な対応だと思う。 でも事前に言えたはずだ、というのが正直な感想だ。 この件でCursorへの見方が少し変わったのは否定できない。


熱狂の裏で:ベンチマーク偏重・ツール乱立疲れへの批判的視点

Kimi騒動は、AIコーディングツール業界が抱える問題の一端に過ぎない。 ベンチマークスコアへの過信、ツール乱立による疲弊感——こうした批判的な声も無視できなくなってきた。

ベンチマークの信頼性が揺らいでいる

まず、そもそもSWE-bench Verifiedの最難問のうち59.4%はテスト自体に欠陥があることをOpenAIが認めている(2026年2月時点)。 ベンチマークで「76.2%」「72%」といった数字を比較しても、その物差し自体が完璧ではないということだ。

さらに気になるデータがある。

  • AI生成コードは人間比でバグ率1.75倍、メンテナビリティ問題1.64倍、セキュリティ問題1.57倍
  • 「20%速くなった感覚があるが、実際は19%遅い」という生産性パラドックス(MIT Technology Review、2025年12月)
  • AT IT読者調査で「生成コードの品質担保が難しい」が28.4%で最多の課題として挙がっている

高いベンチマークスコアが、現実のプロダクション環境での品質を保証するわけではない。 この情報を知ったとき、僕は正直「やっぱりそうだよな」と思った。 AIに書かせたコードをそのまま信頼して本番に出す怖さは、日常的に感じている。

ツール乱立による「FOMO疲れ」

もう一つの問題は、ツールが多すぎることだ。 現時点で主要なAIコーディングツールだけで8つ以上が乱立している。 比較検討だけで時間を消耗するという本末転倒な状況が生まれている。

僕自身、Clineから始まってCursor・Windsurf・Claude Codeと渡り歩いてきた。 「追いかけるのがやっと」という感覚は今でも変わらない。 リベ大の両学長がClaude Codeを推薦し始めたとき、AIコーディングツールがいよいよ一般社会にも浸透してきたなと感じた。

でもその一方で、新しいツールが出るたびに比較記事を読んで、ちょっと触って、また新しいのが出て——という繰り返しに疲れを感じているのも事実だ。

こうした課題があることを理解した上で、それでも使う価値があるかを冷静に判断する必要がある。


結局どれを選ぶ? 用途別の使い分けを考える

ここまで、Cursor 3の新機能やKimi騒動、業界全体の課題を見てきた。 現時点での僕なりの整理を共有したい。

Pragmatic Engineerの調査(2026年2月)では、46%の開発者がClaude Codeを「最も好きなツール」に選んでいる。 Cursorは19%、GitHub Copilotは9%だった。

ただ、好みと実用は別の話だ。 ここからは用途別に、どんな人にどのツールが合いそうかを整理してみる。

こんな人にはCursor 3が合いそう

  • Visual Studio Code系のエコシステムに慣れている
  • Design Modeで素早くUIフィードバックをしたい
  • /best-of-Nで複数モデルを比較する高度なワークフローを試してみたい
  • 月額20ドル(Proプラン)でオールインワンのIDE体験を求める

こんな人にはClaude Codeが合いそう

  • コーディングだけでなく、調査・文書作成・データ整理もAIに任せたい
  • トークン効率を重視する(Claude CodeはCursorより同一タスクで5.5倍少ないトークン消費という報告がある)
  • 顧客満足度や信頼性を重視する(CSAT 91%・NPS 54)
  • ターミナルベースの開発スタイルに抵抗がない

Google Antigravityが気になる人は

  • 無料でエージェントファーストIDEを試してみたい
  • SWE-benchスコア76.2%の実力を体験したい
  • ただし安定性の課題とMCP対応の成熟度は要注意(2026年初頭に追加されたばかり)

Codex 5.3が向いている人は

  • すでにChatGPTの有料プランを使っている
  • PRD執筆やテスト設計もコーディングツール上で一元化したい
  • 超高速レスポンス(Codex-Sparkで1000トークン/秒超)に魅力を感じる

コスト面の注意点

Cursorのクレジット課金制(2025年6月移行)では、ヘビーユーザーが1日10〜20ドルのオーバーチャージを報告している。 一方、Claude CodeとCursorを併用するスタックは月額約40ドルで組めるという声もある。

ツール選びはコーディング性能だけで判断する時代じゃなくなった。 どれだけ業務全般のコンテキストに寄り添えるか、信頼して任せられるか——そっちの軸で評価する時代に移ってきている。

僕個人としては、CursorのPCメモリ負荷が重くて離脱した経験がある。 今のところClaude Code一本で回しているのが正直な現状だ。 ただ、Cursor 3のAgents WindowやDesign Modeには興味がある。 軽量化されていたらまた試してみたい。


まとめ:スペック競争からトラスト競争へ

最後に、この数ヶ月のAI IDE戦争全体を振り返って感じることをまとめておきたい。

  • Cursor 3はAgents Windowでエージェントファーストへの本格転換を宣言した。/best-of-NやDesign Modeなど、独自性のある機能は注目に値する
  • Claude Code・Antigravity・Codexが拮抗し、市場競争は一段と激しくなっている。各ツールに明確な強みがある
  • Kimi騒動・ベンチマーク問題が示すのは、スペックだけでは語れない**信頼性(トラスト)**の重要性。ユーザーへの誠実さがツール選びの判断軸になりつつある
  • ツール選びは用途次第で、自分のワークフローに合うかどうかが最大の判断軸。万人にとっての正解はない

スペックで競い合う時代から、信頼性と実用フィット感で選ばれる時代に移行しつつある。 僕はそう感じている。

2025年初頭にClineを使い始めたとき、1年後にこれだけのツールが乱立するとは思わなかった。 追いかけるのがやっとだけど、それ自体がこの時代の面白さだとも感じている。

どのツールが「勝つ」かは誰にもわからない。 でも、自分に合うツールを選ぶ力は自分で磨ける。 この記事が、その判断材料の一つになれば嬉しい。

前回の記事『AIコーディングツール戦国時代 — Claude Code・Cursor・Windsurf、結局どれを使えばいい?』もあわせて読んでみてほしい。


参考リンク