SWE-benchで見るAIコーディングエージェントの実力 — 2026年最新版

AIコーディングエージェントは「使えるかどうか」の議論を超え、「どう使い分けるか」のフェーズに入っている。本記事では、2026年3月時点のSWE-bench Verifiedスコアを中心に、各モデルの実力と開発者が押さえるべきポイントを整理する。

1. 結論

2026年3月時点で、AIコーディングエージェントの性能はモデル単体の能力だけでなく、スキャフォールド（プロンプト設計やツール構成）に大きく依存する。SWE-bench Verifiedではトップモデル間の差は数ポイントだが、スキャフォールドの違いで22ポイント以上の差が生まれる。また、SWE-CIベンチマークによりテスト対象モデルの75%が既存コードを壊すことが判明しており、ベンチマークスコアだけでモデルを選定するのは危険である。用途に応じた使い分けとリグレッションテストの強化が重要だ。

2. 比較軸

AIコーディングエージェントの比較は以下の軸で整理できる。

SWE-bench Verifiedスコア: 実際のGitHubイシューの自動修正能力を測定する標準ベンチマーク
スキャフォールドの影響: 同じモデルでもプロンプト設計・ツール構成で性能が大幅に変わる
長期メンテナンス能力（SWE-CI）: 既存コードを壊さずに変更できるかを評価する新指標
得意分野: ターミナル操作 vs GUI/フロントエンド実装
コストパフォーマンス: 性能あたりのAPIコスト

3. それぞれの強み

Claude Opus 4.6

SWE-bench Verifiedで80.8%のトップスコアを記録。GUIアプリケーションの構築やフロントエンド実装に強く、複雑なUIロジックの理解やコンポーネント設計で優れたパフォーマンスを示す。SWE-CIでゼロ退行率50%超を達成した唯一のモデル群でもある。

Claude Sonnet 4.6

SWE-bench Verifiedで79.6%とOpusとの差はわずか1.2ポイントだが、APIコストは約半額。コストパフォーマンスの観点では現時点で最も合理的な選択肢と言える。

GPT-5.3 Codex / GPT-5.4

GPT-5.4はSWE-bench Verifiedで78.2%を記録。GPT-5.3 Codexはターミナルベースの操作やCLIツール連携に強みを発揮し、シェルスクリプトの生成やコマンドラインワークフローの自動化で高い精度を見せる。

モデル	スコア
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	78.2%

4. 向いている人

コスト重視の開発者: Claude Sonnet 4.6がトップモデルに迫る性能を約半額で提供しており、最もバランスが良い
フロントエンド/GUI開発中心のチーム: Claude Opus 4.6がUIロジックやコンポーネント設計で優れた結果を出す
CLI/インフラ自動化中心のチーム: GPT-5.3 Codexがターミナル操作やシェルスクリプト生成で高い精度を持つ
長期メンテナンスを重視するプロジェクト: SWE-CIでゼロ退行率50%超を達成したClaude Opusモデルが信頼性で優位

5. 選び方

モデル選定以上に重要なのがスキャフォールドへの投資である。基本的なSWE-Agentスキャフォールドでは約23%のスコアが、最適化されたスキャフォールドでは45%以上に向上する。この22ポイント以上の差は、フロンティアモデル間の差よりも大きい。

ベンチマーク結果は複数確認すべきである。ベンダーは自社に有利なベンチマークだけを強調する傾向があるため、SWE-bench Verifiedのような第三者管理のベンチマークを基準にし、SWE-CIなどメンテナンス系の指標も参照することが重要だ。プロジェクトの性質に応じてターミナル中心ならGPT-5.3 Codex、GUI中心ならClaude Opus 4.6という使い分けが有効である。

6. 注意点

スキャフォールドの影響: 各ベンダーが発表するベンチマーク結果は自社に有利なスキャフォールドで測定されている。数字を鵜呑みにせず、測定条件を確認する必要がある
既存コードへの影響: SWE-CIの結果によると、テスト対象モデルの75%が既存の動作中のコードを壊す。AIが生成したコードが既存機能を壊さないか、CIパイプラインで確実にチェックすべきである
選択的ベンチマーク報告: ベンダーは不利なベンチマークに言及しないケースがあり、複数のベンチマーク結果を横断的に確認することが重要
Claude Codeの普及状況: GitHubのパブリックコミットの約4%（1日あたり約135,000件）がClaude Code経由で生成されており、年末までに20%に達するとの予測もある。ソフトウェア開発のワークフローに不可逆的な変化が起きている

7. 出典

公式: SWE-bench
参考: SWE-CI（Alibaba研究者らが2026年3月4日に発表）、SemiAnalysis（Claude Code普及に関する推計）
補足: SWE-bench Verifiedは実際のGitHubイシューを使用した第三者管理のベンチマーク。SWE-CIはコードベースの継続的メンテナンス能力を評価する初のベンチマーク