Встроенный ИИ Chrome: Gemini Nano открывает возможности локального интеллекта

Google Chrome добавил Gemini Nano — лёгкую LLM — прямо в браузер через Prompt API

Встроенный ИИ Chrome: Gemini Nano открывает возможности локального интеллекта

Google Chrome интегрировал Gemini Nano — лёгкую LLM — непосредственно в браузер с помощью Prompt API. В этой статье рассматривается техническая архитектура, API для разработчиков, ограничения и перспективы.


Что такое Gemini в Chrome?

На конференции Google I/O 2025 компания Google представила интеграцию Gemini AI в настольные версии Chrome (Beta, Dev, Canary), доступную для подписчиков AI Pro / Ultra на английском языке на платформах Windows и macOS (подробности в отчёте The Verge о Google I/O 2025).
Пользователи взаимодействуют через новую иконку на панели инструментов, которая открывает чат-интерфейс, способный «видеть» содержимое текущей страницы — что удобно для резюмирования, разъяснения, сравнения или извлечения данных напрямую с веб-страницы (подробности в отчёте The Verge о Google I/O 2025) и (согласно другому материалу The Verge о функционале агентов](https://www.theverge.com/google/673659/gemini-google-chrome-integration-agentic-era?utm_source=chatgpt.com)).

На данный момент Gemini поддерживает взаимодействие только с одной вкладкой, но планируется поддержка одновременных запросов к нескольким вкладкам в течение 2025 года (см. отчёт The Verge о Google I/O 2025). Также доступно голосовое взаимодействие в реальном времени, что удобно для идентификации инструментов или рецептов в видеороликах на YouTube (по данным статьи The Verge о агентских функциях).


Технический стек и Prompt API

Gemini Nano: локальная LLM

Chrome автоматически загружает Gemini Nano при первом использовании; эта компактная модель полностью работает в браузере с использованием WebAssembly/WebGPU без вызовов в облако, как объясняется в техническом руководстве на web.dev.
Модель оптимизирована для резюмирования, классификации, перефразирования и прочих задач, не ориентирована на масштабное рассуждение или точные запросы фактов, согласно анализу Thinktecture Labs.

Gemini Nano доступна в разных источниках, так что после установки она служит для всех AI-активированных веб-страниц и расширений на данном устройстве, как подробнее описано в документации web.dev.

Prompt API (window.ai.languageModel)

Экспериментальный Prompt API позволяет разработчикам вызывать Gemini Nano через JavaScript — как объясняет Thinktecture Labs.

Основные методы:

const session = await self.ai.languageModel.create({ systemPrompt });
const result = await session.prompt("Ваш запрос здесь");            // без стриминга
const stream = session.promptStreaming("Длинный запрос…");           // потоковый ответ

Разработчики могут настраивать temperature и topK для творческого вывода.

API доступен участникам Программы раннего доступа (EPP) и расширениям Chrome через origin trial.

Требования и настройка

  • Платформы: Windows 10/11, macOS 13 (Ventura) и выше, Linux; не поддерживается на Android, iOS и ChromeOS.
  • Аппаратные требования: свободно ≥ 22 ГБ дискового пространства, GPU с ≥ 4 ГБ видеопамяти для загрузки модели и инференса.

Шаги настройки:

  1. Установить Chrome Canary или Beta (версия 127+).
  2. Включить флаги: #prompt-api-for-gemini-nano и #optimization-guide-on-device-model (с опцией обхода).
  3. Перейти на chrome://components, обновить компонент On-Device Model.
  4. Использовать консоль разработчика для проверки доступа к window.ai.

Сценарии использования и производительность

  • Доступны API для резюмирования, перевода, написания текстов, перефразирования через встроенный стек ИИ.
  • Примеры использования: кастомные расширения Chrome — например, автоматическое заполнение календаря, размытие нежелательного контента или извлечение контактов — без необходимости серверных запросов.
  • Аппаратно-локальное, ориентированное на конфиденциальность, доступное на разных источниках: без дополнительных затрат и зависимости от сети.

Производительность зависит от оснащённости устройства; большие документы могут выходить за рамки контекстного окна Gemini Nano. Используются методики вроде Chunked Augmented Generation (CAG) для решения этих ограничений путём разбивки запросов.

Ограничения и конфиденциальность

  • Gemini Nano не оптимизирована для точной фактической достоверности, поэтому метаданные и точные знания могут быть ненадёжными.
  • Интерфейс пока работает только с одной вкладкой (поддержка нескольких вкладок в будущем).
  • UI мини-окна может обрезать длинные ответы; пользовательский опыт может быть неидеальным при развернутых ответах.

Обещания конфиденциальности основаны на локальном исполнении, однако пользователям следует доверять Chrome в управлении хранением модели и контекстами инференса.

Таблица сравнений

Функция Статус Примечания
Модель Gemini Nano Локальная LLM в Chrome Загружается при первом использовании через Prompt API
Prompt API (window.ai) Экспериментальная (Chrome 127/128+) Поддержка потоковых и непотоковых запросов
API резюмирования/писательства/переписывания Доступны в документации / раннее превью Используются в браузере и расширениях
Аппаратные требования ≥22 ГБ диск и 4 ГБ VRAM Ограничивает совместимость устройств
Точность фактов и большой контекст Ограничена Для расширения используется CAG
Запросы к нескольким вкладкам В планах Пока только одна вкладка

Итоговые мысли

Встроенный ИИ Chrome на базе Gemini Nano — это технический прорыв, обеспечивающий функции GPT‑стиля прямо в браузере с учётом конфиденциальности, работы офлайн и широкой расширяемости. Хотя технология ещё в начальной стадии, разработчики могут экспериментировать с Prompt API для создания инновационных сценариев с минимальной задержкой и без постоянных затрат.

Ожидайте будущих улучшений — включающих поддержку нескольких вкладок, агентские действия и углублённое взаимодействие с вебом — по мере развития проектов Mariner и Agent Mode.

Для разработчиков: начните с Prompt API, присоединяйтесь к Программе раннего доступа и сочетайте возможности локального исполнения с облачными решениями для устойчивых гибридных приложений.

Categories