Google DeepMind CEOが描くAGIの具体像
「AGIはGemini、Genie、そしてNano Bananaのようなものの相互に絡み合ったモデルになるでしょう」
Google DeepMindのCEO、デミス・ハサビス氏がAGI(汎用人工知能)の具体的な姿について語りました。これまで抽象的に語られがちだったAGIが、どのような技術の組み合わせで実現するのか、その道筋が初めて明らかになりました。
ハサビス氏が挙げた3つの技術は以下の通りです。
- Gemini 3:マルチモーダル理解とエージェント機能の基盤
- Genie 3:インタラクティブな仮想世界を生成するワールドモデル
- Nano Banana Pro:画像の意味的理解と生成を担う画像モデル
これらは個別のプロジェクトとして発表されてきましたが、ハサビス氏は「最終的には、それらすべてを一つに統合する必要があります」と明言しました。
Nano BananaはAGIの「最初の兆候」
特に注目すべきは、ハサビス氏がNano Bananaについて語った言葉です。
「これにはGeminiが内部に組み込まれていて、画像内の出来事を意味的に理解するような感じです。だから、私はそれが一種の、画像のためのAGIに近づいていると思います」
これは重要な発言です。これまでの画像生成AIは、テキストプロンプトに応じて画像を出力するだけでした。しかしNano Banana Proは、画像の中で何が起きているかを「理解」できるというのです。
| 観点 | 従来の画像AI | Nano Banana Pro |
|---|---|---|
| 処理方法 | パターンマッチング | 意味的理解 |
| 能力 | 画像生成のみ | 理解+生成+編集 |
| Gemini統合 | なし | 内部に組み込み |
| AGIへの近さ | 専門ツール | 「画像のためのAGI」 |
Nano Banana ProはGemini 3上に構築されており、スタジオ品質レベルの精度とコントロールで画像を作成・編集できます。単なる画像生成ツールではなく、画像領域における汎用知能の萌芽と位置づけられています。
Genie 3:物理世界を理解するワールドモデル
AGI実現のもう一つの重要な柱が、Genie 3(ジーニー3)です。ハサビス氏はこれを「インタラクティブなビデオモデル」と表現しています。
Genie 3の革新性は以下の点にあります。
- 完全な仮想世界を生成:テキストで説明するだけで、没入型の環境が即座に作られる
- インタラクティブ:生成された世界の中を歩き回り、探索できる
- ワールドメモリ:壁にペイントして離れ、戻ってきてもペイントが残っている
これが重要な理由を、ハサビス氏はこう説明しています。
「真のAGIは、言語や数学の抽象的な領域だけでなく、私たちの物理世界を理解しなければならない。この物理的認知能力こそが、現在のロボット技術に欠けているミッシングリンクだ」
2026年の「オムニモデル」構想
ハサビス氏は2026年までのビジョンとして、「モダリティの収束」を掲げています。
これは、ロボティクス、画像、ビデオ、音声、3D、テキストといった異なるモダリティを、別々のツールではなく単一の統合スタックとして実現することを意味します。
| 技術 | 役割 | 統合後の貢献 |
|---|---|---|
| Gemini 3 | マルチモーダル基盤 | 全体のアーキテクチャ |
| Genie 3 | 物理世界の理解 | 空間認知・シミュレーション |
| Nano Banana Pro | 画像の意味理解 | 視覚的知能 |
| Gemini Robotics | 物理的相互作用 | 現実世界での実行 |
ハサビス氏が強調するのは「クロス・ポリネーション(相互受粉)」の重要性です。あるモダリティでの強みが他のモダリティを強化し、全体として人間のような汎用的な知能に近づくというアプローチです。
AGIへの道:あと「1〜2個」のブレークスルー
ハサビス氏はAGI実現までに「あと1〜2個のブレークスルーが必要」と述べています。具体的には以下の領域での改善です。
1. 推論能力の向上
現在のAIは「ギザギザの知能(Jagged Intelligence)」状態にあります。国際数学オリンピックで金メダルを取れるのに、基本的な論理パズルで失敗するという矛盾です。これを全方位で信頼できるレベルに引き上げる必要があります。
2. メモリシステム
長期的な文脈を保持し、過去の経験から学習できるメモリシステムの構築が不可欠です。
3. システム2思考
現在のモデルは「受動的」で、ただ答えを吐き出すだけです。AGIには、話す前に「考える」—計画し、推論し、自分の仕事を二重チェックする—能力が必要です。これは人間の「システム2」思考に相当します。
スケーリングは死んでいない、ただし変化している
「スケーリングの限界」が議論される中、ハサビス氏の見解は興味深いものでした。
「厳しい限界にはまだ達していない。しかし収穫逓減は見られる」
彼の予測では、AGIに到達するには以下の配分が必要とのことです。
- 50%:スケーリング(計算資源・データの拡大)
- 50%:アーキテクチャの革新(新しい設計手法)
もはや「モデルを大きくするだけ」では不十分で、より賢くすることが鍵になるというのがハサビス氏の見立てです。
産業革命の10倍速いシフトに備えよ
ハサビス氏はAGIがもたらす社会変革について、驚くべき警告を発しています。
「産業革命の10倍速く、10倍大きいシフトに備える必要がある」
AIがエネルギー(核融合)と労働を解決すれば、人類は「ポスト希少性」の世界に入る可能性があります。しかし、社会・経済・政府がこれらの利益を少数の人ではなく全員に共有するために、迅速に適応する必要があるとハサビス氏は警告します。
| 領域 | 現在のAI活用 | AGI後の世界 |
|---|---|---|
| 科学研究 | AlphaFoldでタンパク質構造予測 | 材料科学・核融合の解決 |
| エネルギー | 最適化支援 | 無限のクリーンエネルギー |
| 労働 | 特定タスクの自動化 | ほぼ全労働の代替可能性 |
| 経済 | 効率化 | ポスト希少性社会 |
GoogleはすべてをAGIに向けて収束させている
ハサビス氏の発言から浮かび上がるのは、Googleが複数のAIプロジェクトを計画的にAGIへと収束させているという事実です。
Gemini 3、Genie 3、Nano Banana Proは、それぞれ単体でも画期的な技術です。しかしGoogleの真の狙いは、これらを「絡み合わせ」て統合し、現実世界を本当に理解する汎用モデルを作ることにあります。
ハサビス氏の言葉を借りれば:「そして最終的には、それらの異なるプロジェクトをある程度統合するようになりました。それらは絡み合っています。でも、私たちは、それらすべてを一つに統合する必要があります」
まとめ:「画像のためのAGI」から汎用AGIへ
Google DeepMind CEO デミス・ハサビス氏の発言は、AGIへの道筋を具体的に示すものでした。
- AGIの構成要素:Gemini 3(基盤)+ Genie 3(物理理解)+ Nano Banana(視覚知能)
- Nano Bananaの位置づけ:「画像のためのAGI」に近づいている最初の兆候
- 統合の必要性:すべてのプロジェクトを一つに統合することが不可欠
- 2026年ビジョン:モダリティの収束による「オムニモデル」の実現
- 残りのブレークスルー:推論・メモリ・システム2思考の改善
Googleは今、すべてのピースを揃えつつあります。Genie 3で物理世界を理解し、Nano Bananaで画像を意味的に理解し、Gemini 3でそれらを統合する。この組み合わせが、現実世界を本当に理解する汎用モデル—つまりAGI—への道筋なのです。
関連記事:


コメント