Google Gemini 3 Deep Think — 科学・数学・競プロで既存モデルを上回る推論特化モード

1. 3行要約

Googleが2026年3月26日にGemini 3 Deep Thinkを発表し、科学・研究・エンジニアリング向けの推論特化モードを提供開始した
通常の会話的なLLMとは異なり、不完全・曖昧なデータを含む問題に対して「System 2」思考で深い推論を行う設計になっている
Humanity's Last Exam 48.4%、ARC-AGI-2 84.6%、Codeforces 3455 Eloなど、複数のベンチマークで高い数値を記録した

2. 今回の更新内容

「System 2」思考による推論特化モード

Gemini 3 Deep Thinkは、通常のLLMが持つ会話的な応答とは異なるアプローチを取っている。「System 2」思考と呼ばれる、時間をかけて深く考える推論モードを採用した。明確な解がない問題や、不完全・曖昧なデータを含むタスクに取り組むことを目的として設計されている。OpenAIのo1推論モデルやAnthropicの分析能力に対抗する位置づけとなる。

ベンチマーク結果

複数の難関ベンチマークで高い数値が報告されている。Humanity's Last Examでは外部ツールなしで48.4%を達成した。ARC-AGI-2では84.6%、Codeforcesでは3455 Eloというエリート競技プログラミングレベルのスコアを記録している。さらに、2025年国際数学オリンピックで金メダルに相当するレベルの数学的推論能力も示されている。

研究現場での活用事例

すでに複数の大学で活用が始まっている。Rutgers大学の数学者Lisa Carboneは、数学論文のレビューにDeep Thinkを使用し、人間の査読で見逃されていた論理的欠陥を発見した。また、Duke大学のWang Labでは半導体材料の結晶成長における製造方法の最適化に活用されている。

利用方法

GeminiアプリでAI Ultra加入者が利用可能となっている。研究者・エンジニア・企業向けにはAPI早期アクセスプログラムも開始されている。同日にはLyria 3およびLyria 3 Pro（音楽生成モデル）も合わせて発表された。

3. 誰に関係あるか

関係ある人: 科学研究者、数学者、エンジニアなど、複雑な推論を必要とする問題に日常的に取り組んでいる人。論文の査読や材料科学の最適化のように、人間が見落としがちな論理的整合性のチェックを必要とするケース
関係が薄い人: 日常的な会話や文章生成が主な用途のユーザー。Deep Thinkは深い推論に特化しており、一般的なチャット利用には従来のGeminiモデルで十分と考えられる
特に影響が大きいケース: 不完全なデータや曖昧な条件を扱う研究プロジェクト。明確な正解がない問題を扱う際に、Deep Thinkの「System 2」思考が従来モデルとの差を生む場面が多い

4. 実務への影響

導入メリット: 論文査読での論理的欠陥の発見や、材料科学での製造条件最適化など、専門領域での推論補助として活用できる。人間が見落としやすい論理の穴を機械的にチェックする用途に適している
注意点: 現時点ではAI Ultra加入が必要で、API利用も早期アクセスの段階にある。本番環境での大規模利用にはまだ制約がある可能性がある
すぐ試すべきか: 科学・数学・エンジニアリング領域で複雑な推論タスクを抱えている場合は、AI Ultraへの加入やAPI早期アクセスへの申し込みを検討する価値がある
様子見でよいか: 一般的なテキスト生成や会話が主な用途であれば、通常のGeminiモデルで対応できるため急ぐ必要はない

5. 今すぐやること

AI Ultra加入者はGeminiアプリでDeep Thinkモードを試す
研究・エンジニアリング用途でAPI利用を検討している場合は、早期アクセスプログラムへの申し込みを確認する
自分のタスクが「明確な解がない問題」や「不完全なデータからの推論」に該当するかを判断し、Deep Thinkの活用場面を見極める

6. 出典

公式: Google公式ブログ, Google DeepMind
参考: Chrome Unboxed, gHacks