Nanobanana 画像モデルの舞台裏
2025/08/27

Nanobanana 画像モデルの舞台裏

Gemini 2.5 Flash を搭載した Nanobanana ネイティブ画像生成モデルのエンジニアリングを詳しく解説。キャラクターの一貫性、インターリーブ生成、ネイティブマルチモーダルアーキテクチャが AI 画像制作をどのように再定義しているのか、開発チームが語ります。

Gemini 2.5 Flash を搭載した Nanobanana モデルは、AI 画像生成における大きな飛躍を象徴しています。Logan Kilpatrick 氏が進行を務めた最新のディープダイブセッションでは、コア開発チームがこの次世代システムを支える高度なエンジニアリングの舞台裏を明かしました。

プロダクトリードの Nicole Brichtova 氏、リサーチリードの Kaushik Shivakumar 氏と Mostafa Dehghani 氏、そして Robert Riachi 氏は、AI による創作活動を再構築するテクノロジーについて重要な知見を共有しました。これは単なる段階的なアップデートではなく、マルチモーダル AI アーキテクチャの根本的な再考です。

ネイティブ画像生成

Nanobanana の核心にあるのは、ネイティブ画像生成です。各画像を独立したタスクとして扱う従来の手法とは異なり、このモデルは画像をシーケンシャル(連続的)に生成し、以前の結果を豊かなコンテキスト(文脈)として活用します。

なぜ「ネイティブ」なのか?

このモデルは、単一の統合されたアーキテクチャ内で、真のマルチモーダルな理解と生成を実現しています。これにより、制作プロセスの異なる段階で断片化されたシステムを使い分ける必要がなくなります。

Kaushik Shivakumar 氏は、この革命的なアプローチについて次のように説明しています。「画像をシーケンシャルに生成し、以前の出力をコンテキストとして使用することで、モデルは複数の生成にわたってこれまでにない一貫性と文脈理解を実現しています。」

このアーキテクチャの転換により、いくつかの画期的な機能が可能になりました。

揺るぎないキャラクターの一貫性

際立った成果の一つは、キャラクターのアイデンティティを完璧に維持しながら、さまざまな角度からレンダリングできる能力です。バージョン 2.5 は、単なる特徴の保持を超えて、真のマルチアングルレンダリングを実現し、すべてのフレームでキャラクターのブランドイメージを損なうことがありません。

チームは、1980 年代風のスタイル変換を例にデモを行いました。Nicole Brichtova 氏は、モデルがキャラクターの顔の特徴だけでなく、シーケンス全体を通じて雰囲気やスタイルのニュアンスを維持している点に注目しました。

複雑な編集を可能にするインターリーブ生成

Mostafa Dehghani 氏は、インターリーブ生成を紹介しました。これは、自然言語のプロンプトを通じて複数の複雑な編集を同時に適用できる強力な手法です。これにより、ワークフローは単発の編集ステップの積み重ねから、真に多面的なクリエイティブプロセスへと進化します。

「複雑なプロンプトを効果的に解釈できる能力により、ユーザーは一度のシームレスなパスで多数の編集を要求できます」と Dehghani 氏は説明します。これにより、クリエイターはマイナーな調整から包括的なシーンの変換まで、容易に行えるようになります。

高度なマルチモーダル能力

クロスモーダル学習

チームは、画像理解と生成の間のクロスモーダル学習の計り知れない可能性を強調しました。同じアーキテクチャ内で双方向のスキル転移を実現することは、AI システム設計における大きな節目となります。

Robert Riachi 氏はマルチモーダル学習の複雑さについて語り、最終的な目標は単一のモデル内でネイティブな理解と生成を実現し、それによって多様なクリエイティブタスク全体のパフォーマンスを向上させることであると述べました。

人間中心の評価プロセス

視覚的な品質を継続的に向上させるため、チームは学習プロセスに自動指標と人間による評価の両方を組み込んでいます。人間による評価はリソースを必要としますが、ユーザーの期待を真に理解し、それを超えるシステムを構築する上で不可欠な役割を果たしているとチームは認識しています。

Logan Kilpatrick 氏は、人間の好みを最適に測定する方法について重要な問いを投げかけ、プロンプトをインテリジェントに解釈し、文字通りの指示を超えた結果を出すためのモデル学習についての議論を導きました。

技術的進化:2.0 から 2.5 へ

「コラージュ感」問題の解決

以前のバージョンでは、新しい要素が自然に統合されず、単に「貼り付けられた」ように見える画像が生成されることがありました。バージョン 2.5 では、オブジェクトが元の形を保ちながらシーンに自然に織り込まれる、シームレスな変換を可能にすることでこの課題に対処しています。

バージョン 2.0 が編集中のキャラクターアイデンティティの維持に効果的であったのに対し、バージョン 2.5 はこれをアイデンティティのドリフト(変質)なしにマルチアングルレンダリングへと拡張しました。これは、根本的なアーキテクチャの改善によって達成された、技術的に非常に難易度の高い成果です。

インテリジェントなクリエイティブ解釈

最新モデルの注目すべき特徴は、ユーザーの初期の指示を直感的に強化した結果を出す能力です。この「クリエイティブな直感」は明示的にプログラムされたものではなく、視覚的な文脈に対するモデルの深い理解から自然に生まれるものです。

Nicole Brichtova 氏は、ユーザーが常に主導権を握っていることを強調しました。プロンプトの反復的な洗練を通じて、クリエイターはモデルの計算能力を最大限に活用しながら、芸術的な方向性をコントロールすることができます。

業界への影響と今後の道筋

プロフェッショナルなクリエイティブワークフロー

ビルボードのデザインからインパクトのあるソーシャルメディアアセットまで、チームはモデルが複雑なテキスト描画を処理しながら、最高のビジュアル品質を維持する様子を披露しました。これらの実例は、Nanobanana がプロフェッショナルグレードの制作に対応できることを証明しています。

テキスト描画は引き続き開発の重点項目であり、商業用およびプロ用の厳しい要求に応えるための継続的な改良が進められています。

Gemini と Imagen:戦略的な役割

チームは、Google の AI システムがどのように補完し合っているかを明確にしました。

  • Imagen: 特定のタスクに特化したモデルを必要とする開発者向けに最適化されています。
  • Gemini: 柔軟な指示処理能力を備えた、多才なマルチモーダルクリエイティブパートナーとして設計されています。

この戦略的な差別化により、ユーザーは自身の技術的およびクリエイティブな要件に最適なツールを選択することができます。

コラボレーションの未来

進行中のプロジェクトに対するチームの情熱は、急速なイノベーションの未来を予感させます。ビジュアルの再現性と直感的なインタラクションへの注力は、AI が単なるツールではなく、非常に有能なクリエイティブパートナーとなる世界を指し示しています。

Nanobanana は単なる技術的な節目ではありません。それは人間と AI のコラボレーションの未来を垣間見せるものです。高度な理解とネイティブな生成を組み合わせることで、これまで到達不可能だったクリエイティブな地平を切り拓きます。

チームが可能性の境界を押し広げ続けるなか、私たちは画像生成、編集、そしてビジュアルストーリーテリングへのアプローチにおける根本的な変化を目の当たりにしています。