Enkonstruita AI de Chrome: Gemini Nano Malfermas Lokajn Inteligentecojn

Google Chrome aldonis Gemini Nano—malpezan LLM—rekte en la retumilon per la Prompt API

Enkonstruita AI de Chrome: Gemini Nano Malfermas Lokajn Inteligentecojn

Google Chrome aldonis Gemini Nano—malpezan LLM—rekte en la retumilon per la Prompt API. Ĉi tiu artikolo esploras ĝian teknikan arkitekturon, programistajn API-ojn, limigojn kaj estontan potencialon.


Kio Estas Gemini en Chrome?

Ĉe Google I/O 2025, Google prezentis la integriĝon de Gemini AI en Chrome-desktopversioj (Beta, Dev, Canary), alireblaj por AI Pro / Ultra abonantoj en angla lingvo sur Windows kaj macOS (kiel priskribite en Verge-raporto pri Google I/O 2025).
Uzorantoj interagas per nova ikono en la ilobreto, kiu lanĉas konversacian interfacon kiu "vidas" la aktualan paĝenhavaĵon—ideala por resumado, klarigo, komparoj aŭ datum-eltrovo rekte el la retejo (kiel plene priskribite en la Verge-raporto pri Google I/O 2025) kaj (sekve de alia Verge-artikolo pri agentaj trajtoj](https://www.theverge.com/google/673659/gemini-google-chrome-integration-agentic-era?utm_source=chatgpt.com)).

Gemini nuntempe subtenas nur unu langeton samtempe, sed subteno por samtempa demandado de multaj langetoj estas planita por poste en 2025 (kiel raportite en Verge-raporto pri Google I/O 2025). Ĝi ankaŭ ofertas Vivajn voĉajn interagojn, utilajn por identigi iloĵojn aŭ receptojn en YouTube-filmetoj (laŭ alia Verge-artikolo pri agentaj trajtoj).


Teknologia Stako kaj Prompt API

Gemini Nano: La Loka LLM

Chrome aŭtomate elŝutas Gemini Nano ĉe la unua uzo; ĉi tiu malgranda modelo funkcias tute ene de la retumilo uzante WebAssembly/WebGPU sen nubaĵoj kiel klarigas teknika gvidilo ĉe web.dev.
Ĝi estas optimumigita por resumado, klasifiko, redaktado, ktp., sed ne por ampleksaj logikaj rezonoj aŭ precizaj faktoj, laŭ analizo de Thinktecture Labs.

Gemini Nano estas dividita trans originoj, do post instalo ĝi utilas ĉiujn AI-subtenatajn retejojn kaj kromprogramojn sur tiu maŝino, kiel detaligas la web.dev dokumentaro.

Prompt API (window.ai.languageModel)

La eksperimenta Prompt API permesas programistojn voki Gemini Nano per JavaScript kiel klarigas Thinktecture Labs.

Ĉefaj metodoj:

const session = await self.ai.languageModel.create({ systemPrompt });
const result = await session.prompt("Via peto ĉi tie");            // sen fluado
const stream = session.promptStreaming("Longa peto…");              // fluada respondo

Programistoj povas agordi temperaturon kaj topK por krea eligo.

Ĝi estas disponebla al partoprenantoj de la Frua Antaŭvido-Programo (EPP) kaj en Chrome-kromprogramoj per origin-provo.

Postuloj kaj Agordo

  • Platformoj: Windows 10/11, macOS 13 (Ventura)+, Linukso; ne subtenata sur Android, iOS, aŭ ChromeOS.
  • Aparataro: ≥ 22 GB libera disko, GPU kun ≥ 4 GB VRAM bezonataj por modelo-elŝuto kaj infero.

Agordaj paŝoj:

  1. Instalu Chrome Canary aŭ Beta (versio 127+).
  2. Ŝaltu flagojn: #prompt-api-for-gemini-nano kaj #optimization-guide-on-device-model (kun preterpasa opcio).
  3. Iru al chrome://components, ĝisdatigu la komponanton On-Device Model.
  4. Uzu evoluigan konzolon por testi window.ai aliron.

Programistaj Uzokazoj kaj Agado

  • Resumilo, Tradukilo, Verkisto, Redaktanto API-oj estas disponeblaj tra la enkonstruita AI-stako.
  • Uzokazoj inkluzivas personigitajn Chrome-kromprogramojn—ekzemple, aŭtomate plenigi kalendarajn enirojn, malfokusigi nevolitajn enhavojn, aŭ kontaktekstraktadon—sen servilaj turniĝoj.
  • Unue forreta, privatamikaĵamika, dividita inter originoj: sen kroma kosto kaj sen dependeco de reto.

Agado dependas de la aparataro; grandaj dokumentoj povus superi la kontekstan fenestron de Gemini Nano. Ilojn kiel Chunked Augmented Generation (CAG) traktas tiujn limigojn per inteligenta prompta fragmentado.

Limigoj kaj Privateco

  • Gemini Nano ne estas optimumigita por faktoj; do metadatenoj aŭ precizaj scioj povas esti nefidindaj.
  • La nuna interfaco subtenas nur unu langeton (subteno por mult-lanĝetoj venos).
  • La mini-fenestro povas tranĉi longajn respondojn; uzula sperto povas ŝajni malglata se respondoj ne estas mallongaj.

Privatamikaĵaj promesoj baziĝas sur loka ekzekutado, sed oni ankoraŭ bezonas fidi Chrome pri traktado de model-stokado kaj inferaj kontestoj.

Kompara Tabelo

Trajto Stato Notoj
Gemini Nano modelo Loka LLM en Chrome Elŝutita ĉe unua uzo per Prompt API
Prompt API (window.ai) Eksperimenti (Chrome 127/128+) Subtenas fluadan kaj senfluadan petadon
Resumilo / Verkisto / Redaktanto API-oj Disponeblaj per dokumentaro / Frua Antaŭvido Uzu en retejo aŭ kromprogramoj
Aparataraj postuloj Bezono ≥22 GB disko kaj 4 GB VRAM Limigas aparatan kongruon
Fakta precizeco & grandskala kunteksto Limigita CAG-iloj disponeblas por etendi kapablojn
Multi-lanĝeta demandado Planita Nuntempe nur unu langeto

Finaj Pensoj

La enkonstruita AI de Chrome subtenata de Gemini Nano estas teknika mejloŝtono—provizante GPT-stilajn ecojn rekte en la retumilo kun privateco, forreta funkcio kaj vasta etendebleco. Kvankam ankoraŭ ĝia frua stadio, programistoj povas eksperimenti per la Prompt API por krei novigajn uzkazojn kun minima latentezo kaj sen ripetaj kostoj.

Atendu estontajn plibonigojn—inkluzive mult-lanĝetan subtenon, agentajn agojn, kaj pli profundajn interagojn kun la retumilo—post kiam projektoj kiel Mariner kaj Agent Mode maturiĝos.

Por programistoj: komencu per la Prompt API, aliĝu al la Frua Antaŭvido-Programo, kaj kombinu loka-aparatan kapablecon kun nub-bazita rezervado por fortikaj hibridaj aplikoj.

Categories