Article

SWE-benchで見るAIコーディングエージェントの実力 — 2026年最新版

SWE-bench Verifiedの最新スコアからスキャフォールドの影響、SWE-CIベンチマーク、Claude Codeの普及状況まで。AIコーディングエージェントの現在地と開発者が取るべきアクションを徹底解説します。

AISWE-benchコーディングエージェントClaudeGPTベンチマーク
YO

yoshiaki

·4分で読める

SWE-benchで見るAIコーディングエージェントの実力 — 2026年最新版

SWE-benchで見るAIコーディングエージェントの実力 — 2026年最新版

AIコーディングエージェントは「使えるかどうか」の議論を超え、「どう使い分けるか」のフェーズに入っている。本記事では、2026年3月時点のSWE-bench Verifiedスコアを中心に、各モデルの実力と開発者が押さえるべきポイントを整理する。

1. 結論

2026年3月時点で、AIコーディングエージェントの性能はモデル単体の能力だけでなく、スキャフォールド(プロンプト設計やツール構成)に大きく依存する。SWE-bench Verifiedではトップモデル間の差は数ポイントだが、スキャフォールドの違いで22ポイント以上の差が生まれる。また、SWE-CIベンチマークによりテスト対象モデルの75%が既存コードを壊すことが判明しており、ベンチマークスコアだけでモデルを選定するのは危険である。用途に応じた使い分けとリグレッションテストの強化が重要だ。

2. 比較軸

AIコーディングエージェントの比較は以下の軸で整理できる。

  • SWE-bench Verifiedスコア: 実際のGitHubイシューの自動修正能力を測定する標準ベンチマーク
  • スキャフォールドの影響: 同じモデルでもプロンプト設計・ツール構成で性能が大幅に変わる
  • 長期メンテナンス能力(SWE-CI): 既存コードを壊さずに変更できるかを評価する新指標
  • 得意分野: ターミナル操作 vs GUI/フロントエンド実装
  • コストパフォーマンス: 性能あたりのAPIコスト

3. それぞれの強み

Claude Opus 4.6

SWE-bench Verifiedで80.8%のトップスコアを記録。GUIアプリケーションの構築やフロントエンド実装に強く、複雑なUIロジックの理解やコンポーネント設計で優れたパフォーマンスを示す。SWE-CIでゼロ退行率50%超を達成した唯一のモデル群でもある。

Claude Sonnet 4.6

SWE-bench Verifiedで79.6%とOpusとの差はわずか1.2ポイントだが、APIコストは約半額。コストパフォーマンスの観点では現時点で最も合理的な選択肢と言える。

GPT-5.3 Codex / GPT-5.4

GPT-5.4はSWE-bench Verifiedで78.2%を記録。GPT-5.3 Codexはターミナルベースの操作やCLIツール連携に強みを発揮し、シェルスクリプトの生成やコマンドラインワークフローの自動化で高い精度を見せる。

モデルスコア
Claude Opus 4.680.8%
Claude Sonnet 4.679.6%
GPT-5.478.2%

4. 向いている人

  • コスト重視の開発者: Claude Sonnet 4.6がトップモデルに迫る性能を約半額で提供しており、最もバランスが良い
  • フロントエンド/GUI開発中心のチーム: Claude Opus 4.6がUIロジックやコンポーネント設計で優れた結果を出す
  • CLI/インフラ自動化中心のチーム: GPT-5.3 Codexがターミナル操作やシェルスクリプト生成で高い精度を持つ
  • 長期メンテナンスを重視するプロジェクト: SWE-CIでゼロ退行率50%超を達成したClaude Opusモデルが信頼性で優位

5. 選び方

モデル選定以上に重要なのがスキャフォールドへの投資である。基本的なSWE-Agentスキャフォールドでは約23%のスコアが、最適化されたスキャフォールドでは45%以上に向上する。この22ポイント以上の差は、フロンティアモデル間の差よりも大きい。

ベンチマーク結果は複数確認すべきである。ベンダーは自社に有利なベンチマークだけを強調する傾向があるため、SWE-bench Verifiedのような第三者管理のベンチマークを基準にし、SWE-CIなどメンテナンス系の指標も参照することが重要だ。プロジェクトの性質に応じてターミナル中心ならGPT-5.3 Codex、GUI中心ならClaude Opus 4.6という使い分けが有効である。

6. 注意点

  • スキャフォールドの影響: 各ベンダーが発表するベンチマーク結果は自社に有利なスキャフォールドで測定されている。数字を鵜呑みにせず、測定条件を確認する必要がある
  • 既存コードへの影響: SWE-CIの結果によると、テスト対象モデルの75%が既存の動作中のコードを壊す。AIが生成したコードが既存機能を壊さないか、CIパイプラインで確実にチェックすべきである
  • 選択的ベンチマーク報告: ベンダーは不利なベンチマークに言及しないケースがあり、複数のベンチマーク結果を横断的に確認することが重要
  • Claude Codeの普及状況: GitHubのパブリックコミットの約4%(1日あたり約135,000件)がClaude Code経由で生成されており、年末までに20%に達するとの予測もある。ソフトウェア開発のワークフローに不可逆的な変化が起きている

7. 出典

  • 公式: SWE-bench
  • 参考: SWE-CI(Alibaba研究者らが2026年3月4日に発表)、SemiAnalysis(Claude Code普及に関する推計)
  • 補足: SWE-bench Verifiedは実際のGitHubイシューを使用した第三者管理のベンチマーク。SWE-CIはコードベースの継続的メンテナンス能力を評価する初のベンチマーク