Встроенный ИИ Chrome: Gemini Nano открывает возможности локального интеллекта
Google Chrome интегрировал Gemini Nano — лёгкую LLM — непосредственно в браузер с помощью Prompt API. В этой статье рассматривается техническая архитектура, API для разработчиков, ограничения и перспективы.
Что такое Gemini в Chrome?
На конференции Google I/O 2025 компания Google представила интеграцию Gemini AI в настольные версии Chrome (Beta, Dev, Canary), доступную для подписчиков AI Pro / Ultra на английском языке на платформах Windows и macOS (подробности в отчёте The Verge о Google I/O 2025).
Пользователи взаимодействуют через новую иконку на панели инструментов, которая открывает чат-интерфейс, способный «видеть» содержимое текущей страницы — что удобно для резюмирования, разъяснения, сравнения или извлечения данных напрямую с веб-страницы (подробности в отчёте The Verge о Google I/O 2025) и (согласно другому материалу The Verge о функционале агентов](https://www.theverge.com/google/673659/gemini-google-chrome-integration-agentic-era?utm_source=chatgpt.com)).
На данный момент Gemini поддерживает взаимодействие только с одной вкладкой, но планируется поддержка одновременных запросов к нескольким вкладкам в течение 2025 года (см. отчёт The Verge о Google I/O 2025). Также доступно голосовое взаимодействие в реальном времени, что удобно для идентификации инструментов или рецептов в видеороликах на YouTube (по данным статьи The Verge о агентских функциях).
Технический стек и Prompt API
Gemini Nano: локальная LLM
Chrome автоматически загружает Gemini Nano при первом использовании; эта компактная модель полностью работает в браузере с использованием WebAssembly/WebGPU без вызовов в облако, как объясняется в техническом руководстве на web.dev.
Модель оптимизирована для резюмирования, классификации, перефразирования и прочих задач, не ориентирована на масштабное рассуждение или точные запросы фактов, согласно анализу Thinktecture Labs.
Gemini Nano доступна в разных источниках, так что после установки она служит для всех AI-активированных веб-страниц и расширений на данном устройстве, как подробнее описано в документации web.dev.
Prompt API (window.ai.languageModel
)
Экспериментальный Prompt API позволяет разработчикам вызывать Gemini Nano через JavaScript — как объясняет Thinktecture Labs.
Основные методы:
const session = await self.ai.languageModel.create({ systemPrompt });
const result = await session.prompt("Ваш запрос здесь"); // без стриминга
const stream = session.promptStreaming("Длинный запрос…"); // потоковый ответ
Разработчики могут настраивать temperature и topK для творческого вывода.
API доступен участникам Программы раннего доступа (EPP) и расширениям Chrome через origin trial.
⸻
Требования и настройка
- Платформы: Windows 10/11, macOS 13 (Ventura) и выше, Linux; не поддерживается на Android, iOS и ChromeOS.
- Аппаратные требования: свободно ≥ 22 ГБ дискового пространства, GPU с ≥ 4 ГБ видеопамяти для загрузки модели и инференса.
Шаги настройки:
- Установить Chrome Canary или Beta (версия 127+).
- Включить флаги: #prompt-api-for-gemini-nano и #optimization-guide-on-device-model (с опцией обхода).
- Перейти на chrome://components, обновить компонент On-Device Model.
- Использовать консоль разработчика для проверки доступа к window.ai.
⸻
Сценарии использования и производительность
- Доступны API для резюмирования, перевода, написания текстов, перефразирования через встроенный стек ИИ.
- Примеры использования: кастомные расширения Chrome — например, автоматическое заполнение календаря, размытие нежелательного контента или извлечение контактов — без необходимости серверных запросов.
- Аппаратно-локальное, ориентированное на конфиденциальность, доступное на разных источниках: без дополнительных затрат и зависимости от сети.
Производительность зависит от оснащённости устройства; большие документы могут выходить за рамки контекстного окна Gemini Nano. Используются методики вроде Chunked Augmented Generation (CAG) для решения этих ограничений путём разбивки запросов.
⸻
Ограничения и конфиденциальность
- Gemini Nano не оптимизирована для точной фактической достоверности, поэтому метаданные и точные знания могут быть ненадёжными.
- Интерфейс пока работает только с одной вкладкой (поддержка нескольких вкладок в будущем).
- UI мини-окна может обрезать длинные ответы; пользовательский опыт может быть неидеальным при развернутых ответах.
Обещания конфиденциальности основаны на локальном исполнении, однако пользователям следует доверять Chrome в управлении хранением модели и контекстами инференса.
⸻
Таблица сравнений
Функция | Статус | Примечания |
---|---|---|
Модель Gemini Nano | Локальная LLM в Chrome | Загружается при первом использовании через Prompt API |
Prompt API (window.ai) | Экспериментальная (Chrome 127/128+) | Поддержка потоковых и непотоковых запросов |
API резюмирования/писательства/переписывания | Доступны в документации / раннее превью | Используются в браузере и расширениях |
Аппаратные требования | ≥22 ГБ диск и 4 ГБ VRAM | Ограничивает совместимость устройств |
Точность фактов и большой контекст | Ограничена | Для расширения используется CAG |
Запросы к нескольким вкладкам | В планах | Пока только одна вкладка |
Итоговые мысли
Встроенный ИИ Chrome на базе Gemini Nano — это технический прорыв, обеспечивающий функции GPT‑стиля прямо в браузере с учётом конфиденциальности, работы офлайн и широкой расширяемости. Хотя технология ещё в начальной стадии, разработчики могут экспериментировать с Prompt API для создания инновационных сценариев с минимальной задержкой и без постоянных затрат.
Ожидайте будущих улучшений — включающих поддержку нескольких вкладок, агентские действия и углублённое взаимодействие с вебом — по мере развития проектов Mariner и Agent Mode.
Для разработчиков: начните с Prompt API, присоединяйтесь к Программе раннего доступа и сочетайте возможности локального исполнения с облачными решениями для устойчивых гибридных приложений.