Chromeの組み込みAI:Gemini Nanoがオンデバイスインテリジェンスを解放
Google Chromeは軽量LLMのGemini NanoをPrompt API経由でブラウザに直接組み込みました。本記事ではその技術構成、開発者向けAPI、制限事項、将来の可能性を探ります。
ChromeのGeminiとは?
2025年のGoogle I/Oで、GoogleはGemini AIをChromeのデスクトップ版(Beta、Dev、Canary)に統合したことを発表しました。これはAI Pro / Ultraサブスクライバー向けに、WindowsとmacOS上の英語環境で利用可能です(詳細はVergeのGoogle I/O 2025レポート参照)。
ユーザーはツールバーの新しいアイコンからチャットUIを起動し、現在のページ内容を「見て」要約、説明、比較、またはウェブページから直接データ抽出を行えます(同上レポートおよびエージェント機能に関する別記事参照)。
現状ではGeminiは単一のタブのみ対応していますが、2025年後半には複数タブ同時クエリが可能になる予定です(同上レポート参照)。さらにライブボイス対話も提供、YouTube動画のツールやレシピ特定に便利です(エージェント機能関連記事参照)。
技術スタック & Prompt API
Gemini Nano:ローカルLLM
Chromeは初回利用時に自動でGemini Nanoをダウンロードします。これはWebAssembly/WebGPUを活用し、完全にブラウザ内で動作する小型モデルで、クラウドコールなしという特徴があります(web.devの技術ガイド参照)。
要約、分類、リライティングなどに最適化されており、大規模な推論や厳密な事実照会向けではないと、Thinktecture Labsの分析で指摘されています。
Gemini Nanoはオリジンを超えて共有されるため、一度インストールされるとそのマシン上のすべてのAI対応ウェブページや拡張機能が恩恵を受けます(詳細はweb.devドキュメント参照)。
Prompt API (window.ai.languageModel
)
実験的なPrompt APIは開発者がJavaScript経由でGemini Nanoを呼び出せる機能を提供します(Thinktecture Labsの解説参照)。
コアメソッド例:
const session = await self.ai.languageModel.create({ systemPrompt });
const result = await session.prompt("Your prompt here"); // 非ストリーミング
const stream = session.promptStreaming("Long prompt…"); // ストリーミング応答
温度(temperature)やtopKパラメータを調整し、より創造的な出力も可能です。
現在はEarly Preview Program(EPP)参加者およびChrome拡張機能のオリジントライアルで利用可能です。
⸻
要件とセットアップ
- 対応プラットフォーム:Windows 10/11、macOS 13(Ventura以降)、Linux。Android、iOS、ChromeOSは非対応。
- ハードウェア:モデルのダウンロードと推論に22GB以上の空きディスク容量、4GB以上のVRAMを持つGPUが必要。
セットアップ手順:
- Chrome CanaryまたはBeta(127以上)をインストール。
- フラグを有効化:#prompt-api-for-gemini-nano と #optimization-guide-on-device-model(バイパスオプションあり)。
- chrome://componentsにアクセスし、On-Device Modelコンポーネントを更新。
- 開発者コンソールでwindow.aiへのアクセスをテスト。
⸻
開発者向けユースケースとパフォーマンス
- 要約、翻訳、文章作成、リライトAPIが組み込みAIスタックで利用可能。
- 利用例にはカスタムChrome拡張があり、カレンダー自動入力や不要コンテンツのぼかし、連絡先抽出などをサーバーに一切問い合わせることなく実現可能。
- オフライン優先、プライバシー配慮、オリジン間共有可能で、追加コストなしネットワーク非依存という特長。
パフォーマンスはハードウェア仕様に依存し、大量の文書はGemini Nanoのコンテキストウィンドウの制限を超えることがあります。Chunked Augmented Generation(CAG)のような技法でプロンプトを分割し、これを補えます。
⸻
制限事項とプライバシー
- Gemini Nanoは事実精度に最適化されていないため、メタデータや正確な知識には信頼性が限られます。
- 現状UIは単一タブのみ対応(複数タブ対応は今後予定)。
- ミニウィンドウUIは長い応答を途中で切ることがあり、簡潔でない場合UXが乏しく感じることがあります。
プライバシー面はローカル実行に依存しますが、モデルの保存や推論コンテキストの扱いについてはChromeの処理を信頼する必要があります。
⸻
比較表
機能 | 状況 | 備考 |
---|---|---|
Gemini Nanoモデル | Chrome内のローカルLLM | 初回利用時にPrompt API経由でダウンロード |
Prompt API (window.ai) | 実験的(Chrome 127/128+) | ストリーミング/非ストリーミング対応 |
要約/文章作成/リライトAPI | ドキュメント/Early Previewで利用可能 | Webや拡張で使用可能 |
ハード要件 | 22GB以上のディスク、4GB VRAM必須 | 対応デバイスに制限 |
事実精度・大規模コンテキスト | 制限あり | CAGツールで機能拡張可能 |
複数タブクエリ | 今後対応予定 | 現状は単一タブのみ |
最後に
Gemini Nano搭載のChrome組み込みAIは、ブラウザ内でGPTスタイルの機能をプライバシー配慮・オフライン対応かつ高い拡張性で提供する技術的マイルストーンです。まだ初期段階ですが、開発者はPrompt APIを活用し、低遅延かつコスト不要で革新的なユースケースの創出に挑戦できます。
複数タブ対応やエージェント機能、より深いウェブ連携能力など、MarinerやAgent Modeといったプロジェクトが成熟するにつれて今後の拡張が期待されます。
開発者はまずPrompt APIから始め、Early Preview Programに参加し、オンデバイス能力をクラウド連携と組み合わせることで堅牢なハイブリッドアプリケーションを構築してください。