A Chrome beépített mesterséges intelligenciája: Gemini Nano felszabadítja az eszközön futó intelligenciát

A Google Chrome közvetlenül beépítette a Gemini Nano-t – egy könnyű nyelvi modellt –, a Prompt API-n keresztül. Ez a cikk bemutatja technikai architektúráját, fejlesztői API-jait, korlátait és jövőbeni lehetőségeit.

Mi az a Gemini a Chrome-ban?

A Google I/O 2025 eseményen a Google leleplezte a Gemini MI integrációját a Chrome asztali verzióiba (Beta, Dev, Canary), amely AI Pro / Ultra előfizetők számára elérhető angol nyelven Windows és macOS rendszereken (részletek a Verge beszámolójában a Google I/O 2025-ről). A felhasználók egy új ikonnal lépnek interakcióba a böngésző eszköztárában, amely egy chatbot felületet indít el, amely „látja” az adott oldal tartalmát – ideális összefoglaláshoz, tisztázáshoz, összehasonlításhoz vagy közvetlen adatkinyeréshez az oldalról (részletekért lásd a Verge cikket a Google I/O-ról) és (egy másik Verge cikk szerint az ügynöki funkciókról](https://www.theverge.com/google/673659/gemini-google-chrome-integration-agentic-era?utm_source=chatgpt.com)).

Jelenleg a Gemini csak egyetlen fület kezel egyszerre, de a több fül egyidejű lekérdezésének támogatása várhatóan 2025-ben érkezik (részletek a Verge beszámolójában). Emellett kínál élő hangalapú interakciókat, amelyek hasznosak lehetnek például YouTube-videókon eszközök vagy receptek azonosításához (a ügynöki funkciókról szóló Verge cikk alapján).

Technológiai háttér és Prompt API

Gemini Nano: a helyi nyelvi modell

A Chrome automatikusan letölti a Gemini Nanót az első használatkor; ez a kis méretű modell teljes egészében a böngészőben fut WebAssembly/WebGPU segítségével, felhőhívás nélkül, ahogy azt egy web.dev technikai útmutatóban is magyarázzák.
Kifejezetten összefoglaláshoz, osztályozáshoz, újraíráshoz optimalizált, nem nagy léptékű érvelésre vagy pontos ténykérdésekre, az elemzések szerint a Thinktecture Labs részéről.

A Gemini Nano meg van osztva az origin-ek között, így egyszeri telepítés után minden MI-t támogató weboldal és kiterjesztés képes használni az adott gépen, amint az a web.dev dokumentációban részletezve van.

Prompt API (`window.ai.languageModel`)

Az kísérleti Prompt API lehetővé teszi a fejlesztők számára, hogy JavaScript-en keresztül hívják meg a Gemini Nanót, ahogy azt a Thinktecture Labs is ismerteti.

Főbb metódusok:

const session = await self.ai.languageModel.create({ systemPrompt });
const result = await session.prompt("Ide írd a kérésed");           // nem folyamatos válasz
const stream = session.promptStreaming("Hosszú kérés…");             // folyamatos válasz

A fejlesztők testre szabhatják a temperature és topK paramétereket a kreatív kimenethez.

Elérhető az Early Preview Program (EPP) résztvevői számára, valamint Chrome-bővítményeknél origin trial keretében.

⸻

Követelmények és beállítás

Platformok: Windows 10/11, macOS 13 (Ventura)+, Linux; nem támogatott Android, iOS vagy ChromeOS platformokon.
Hardver: legalább 22 GB szabad lemezterület, valamint minimum 4 GB VRAM-mal rendelkező GPU szükséges a modell letöltéséhez és futtatásához.

Beállítási lépések:

Telepítsünk Chrome Canary vagy Beta verziót (127-es vagy újabb).
Engedélyezzük a flag-eket: #prompt-api-for-gemini-nano és #optimization-guide-on-device-model (átugrási opcióval).
Nyissuk meg a chrome://components oldalt és frissítsük az On-Device Model komponenst.
A fejlesztői konzolon teszteljük a window.ai hozzáférést.

⸻

Fejlesztői felhasználási esetek és teljesítmény

Összefoglaló, Fordító, Író, Újraíró API-k elérhetők a beépített MI rétegen keresztül.
Felhasználási esetek például egyedi Chrome-bővítmények – mint például naptárbejegyzések automatikus kitöltése, nem kívánt tartalom homályosítása vagy kapcsolatok kinyerése – szerver körüli válaszidő nélkül.
Offline elsődleges működés, adatvédelmi szempontból kedvező, origin-ek között megosztható: további költség nincs, és nincs hálózati függőség.

A teljesítményt befolyásolja a hardver; nagyobb dokumentumok meghaladhatják a Gemini Nano kontextusablak méretét. Az olyan eszközök, mint a Chunked Augmented Generation (CAG), intelligens prompt-felbontással oldják meg ezeket a korlátokat.

⸻

Korlátok és adatvédelem

A Gemini Nano nincs optimalizálva a tényalapú pontosságra, ezért a metaadatok és pontos tudás megbízhatatlan lehet.
A jelenlegi felület csak egyetlen fül kontextusát támogatja (a többfüles támogatás később várható).
A miniablak UI-n hosszú válaszok levágódhatnak; a felhasználói élmény esetleg akadozónak tűnhet, ha a válaszok nem tömörek.

Az adatvédelmi ígéret az eszközön történő végrehajtásra épül, de továbbra is bizalmat igényel a Chrome tárolási és végrehajtási környezetének kezelésében.

⸻

Összehasonlító táblázat

Tulajdonság	Állapot	Megjegyzések
Gemini Nano modell	Helyi nyelvi modell Chrome-ban	Első használatkor letöltődik Prompt API-n keresztül
Prompt API (window.ai)	Kísérleti (Chrome 127/128+)	Támogatja a szakaszos és nem szakaszos promptokat
Összefoglaló / Író / Újraíró API-k	Elérhető dokumentációban / Early Preview	Használható weben vagy bővítményekben
Hardver követelmények	≥22 GB lemez, 4 GB VRAM szükséges	Korlátozza az eszközök kompatibilitását
Tényalapúság & nagy kontextus	Korlátozott	CAG eszközök állnak rendelkezésre a bővítéshez
Többfüles lekérdezés	Tervezett	Egyfüles támogatás jelenleg

Végső gondolatok

A Chrome beépített Gemini Nano MI-je jelentős technikai mérföldkő – GPT-stílusú funkciókat biztosít közvetlenül a böngészőben, adatvédelemmel, offline működéssel és széles körű bővíthetőséggel. Még korai stádiumban van, de a fejlesztők már kísérletezhetnek a Prompt API használatával, hogy innovatív megoldásokat hozzanak létre minimális késleltetéssel és folyamatos költségek nélkül.

A jövőben várható fejlesztések közé tartozik a többfüles támogatás, ügynöki műveletek és mélyebb webes interakciós képességek, ahogy a Mariner és Agent Mode projektek érettebbé válnak.

Fejlesztőknek érdemes a Prompt API-val kezdeni, csatlakozni az Early Preview Programhoz, és az eszközön futó képességeket felhőbeli tartalék megoldásokkal kombinálni a stabil hibrid alkalmazások érdekében.

A Chrome beépített mesterséges intelligenciája: Gemini Nano felszabadítja az eszközön futó intelligenciát

A Chrome beépített mesterséges intelligenciája: Gemini Nano felszabadítja az eszközön futó intelligenciát

Mi az a Gemini a Chrome-ban?

Technológiai háttér és Prompt API

Gemini Nano: a helyi nyelvi modell

Prompt API (window.ai.languageModel)

Követelmények és beállítás

Beállítási lépések:

Fejlesztői felhasználási esetek és teljesítmény

Korlátok és adatvédelem

Összehasonlító táblázat

Végső gondolatok

Categories

Prompt API (`window.ai.languageModel`)