क्रोम का बिल्ट-इन एआई: जेमिनी नैनो ऑन-डिवाइस इंटेलिजेंस को खोलता है

गूगल क्रोम ने प्रॉम्प्ट एपीआई के जरिए ब्राउज़र में सीधे जेमिनी नैनो — एक हल्का LLM — जोड़ा है

क्रोम का बिल्ट-इन एआई: जेमिनी नैनो ऑन-डिवाइस इंटेलिजेंस को खोलता है

गूगल क्रोम ने जेमिनी नैनो—एक हल्का LLM—को प्रॉम्प्ट एपीआई के जरिए सीधे ब्राउज़र में जोड़ा है। यह लेख इसके तकनीकी आर्किटेक्चर, डेवलपर एपीआई, सीमाएं और भविष्य की संभावनाओं को विस्तार से बताता है।


क्रोम में जेमिनी क्या है?

Google I/O 2025 में, गूगल ने घोषणा की कि उसने जेमिनी एआई को क्रोम डेस्कटॉप बिल्ड्स (बीटा, डेवलपमेंट, कैनरी) में एकीकृत किया है, जो AI Pro / Ultra सब्सक्राइबर्स के लिए अंग्रेज़ी में Windows और macOS पर उपलब्ध है (जैसा कि Verge रिपोर्ट Google I/O 2025 में बताया गया है)।
यूज़र्स टूलबार पर नए आइकन के माध्यम से इंटरैक्ट करते हैं, जो एक चैट यूआई खोलता है जो वर्तमान पेज की सामग्री को "देख" सकता है—जो सारांश बनाने, स्पष्टता प्रदान करने, तुलना करने या वेबपेज से सीधे डेटा निकालने के लिए आदर्श है (जैसा कि Verge रिपोर्ट में बताया गया है) और (एक अन्य Verge लेख के अनुसार एजेंटिक फीचर्स पर)।

वर्तमान में, जेमिनी एक समय में केवल एक टैब को संभालता है, लेकिन कई टैब्स को एक साथ क्वेरी करने का समर्थन 2025 के बाद जारी किया जाएगा (जैसा कि Verge रिपोर्ट Google I/O 2025 में बताया गया है)। यह लाइव वॉयस इंटरैक्शंस भी प्रदान करता है, जो यूट्यूब वीडियो में टूल्स या रेसिपी पहचानने में मददगार हो सकते हैं (जैसा कि Verge के एजेंटिक फीचर्स के एक अन्य लेख में समझाया गया है)।


तकनीकी स्टैक और प्रॉम्प्ट एपीआई

जेमिनी नैनो: स्थानीय LLM

क्रोम पहली उपयोग के दौरान स्वचालित रूप से जेमिनी नैनो डाउनलोड करता है; यह छोटा मॉडल पूरी तरह से ब्राउज़र के भीतर WebAssembly/WebGPU का उपयोग करके चलता है, जिसमें क्लाउड कॉल्स की कोई आवश्यकता नहीं है, जैसा कि web.dev के तकनीकी गाइड में बताया गया है।
यह बड़े पैमाने पर तर्क या सटीक तथ्यात्मक प्रश्नों के लिए नहीं, बल्कि सारांश, वर्गीकरण, पुनर्लेखन आदि के लिए अनुकूलित है, जैसा Thinktecture Labs के विश्लेषण में बताया गया है।

जेमिनी नैनो विभिन्न मूल स्रोतों में साझा किया जाता है, इसलिए एक बार इंस्टॉल करने पर यह उस मशीन पर सभी AI-सक्षम वेब पेज और एक्सटेंशन्स के लिए फायदेमंद होता है, जैसा कि web.dev डॉक्यूमेंटेशन में विस्तार से बताया गया है।

प्रॉम्प्ट एपीआई (window.ai.languageModel)

प्रयोगात्मक प्रॉम्प्ट एपीआई डेवलपर्स को JavaScript के माध्यम से जेमिनी नैनो को कॉल करने में सक्षम बनाता है, जैसा कि Thinktecture Labs में समझाया गया है।

मुख्य मेथड्स:

const session = await self.ai.languageModel.create({ systemPrompt });
const result = await session.prompt("यहाँ अपना प्रॉम्प्ट डालें");            // नॉन-स्ट्रीमिंग
const stream = session.promptStreaming("लंबा प्रॉम्प्ट…");                  // स्ट्रीमिंग प्रतिक्रिया

डेवलपर्स रचनात्मक आउटपुट के लिए टेम्परेचर और टॉपके को अनुकूलित कर सकते हैं।

यह अर्ली प्रिव्यू प्रोग्राम (EPP) प्रतिभागियों के लिए उपलब्ध है और क्रोम एक्सटेंशन्स में ओरिजिन ट्रायल के माध्यम से उपलब्ध है।

आवश्यकताएँ और सेटअप

  • प्लेटफ़ॉर्म: Windows 10/11, macOS 13 (Ventura) या इसके बाद के संस्करण, Linux; Android, iOS या ChromeOS पर समर्थित नहीं।
  • हार्डवेयर: ≥ 22 GB फ्री डिस्क स्थान, मॉडल डाउनलोड और इन्फेरेंस के लिए GPU में ≥ 4 GB VRAM आवश्यक है।

सेटअप के चरण:

  1. क्रोम कैनरी या बीटा (संस्करण 127+) इंस्टॉल करें।
  2. फ्लैग सक्षम करें: #prompt-api-for-gemini-nano और #optimization-guide-on-device-model (बायपास विकल्प के साथ)।
  3. जाएं chrome://components और ऑन-डिवाइस मॉडल कंपोनेंट अपडेट करें।
  4. डेवलपर कंसोल का उपयोग करके window.ai एक्सेस को टेस्ट करें।

डेवलपर उपयोग केस और प्रदर्शन

  • सारांशक, अनुवादक, लेखक, पुनर्लेखक एपीआई बिल्ट-इन AI स्टैक के माध्यम से उपलब्ध हैं।
  • उपयोग के मामले जैसे कस्टम क्रोम एक्सटेंशन्स—उदाहरण के लिए, अपने आप कैलेंडर एन्ट्री भरना, अवांछित सामग्री धुंधला करना, या संपर्क जानकारी निकालना—बिना किसी सर्वर राउंड-ट्रिप के।
  • ऑफलाइन-प्रथम, प्राइवेसी-फ्रेंडली, स्रोतों के बीच साझा किया जा सकता है: कोई अतिरिक्त लागत नहीं और नेटवर्क निर्भरता नहीं

प्रदर्शन हार्डवेयर पर निर्भर करता है; बड़े दस्तावेज़ जेमिनी नैनो की संदर्भ विंडो से बाहर हो सकते हैं। चंकी ऑगमेंटेड जेनरेशन (CAG) जैसे टूल्स इन सीमाओं को बुद्धिमानी से प्रॉम्प्ट को विभाजित करके संबोधित करते हैं।

सीमाएं और प्राइवेसी

  • जेमिनी नैनो तथ्यात्मक सटीकता के लिए अनुकूलित नहीं है, इसलिए मेटाडेटा या सटीक ज्ञान अविश्वसनीय हो सकता है।
  • वर्तमान इंटरफ़ेस केवल एक टैब के संदर्भ का समर्थन करता है (मल्टी-टैब समर्थन जल्द ही आ रहा है)।
  • मिनी-विंडो UI लंबी प्रतिक्रियाओं को काट सकता है; यदि उत्तर संक्षिप्त नहीं हैं तो उपयोगकर्ता अनुभव थोड़ा भारी लग सकता है।

प्राइवेसी वादे स्थानीय निष्पादन पर आधारित हैं, लेकिन आपको अभी भी क्रोम के मॉडल स्टोरेज और इन्फेरेंस कॉन्टेक्स्ट के संचालन पर भरोसा करना होगा।

तुलना सारणी

विशेषता स्थिति टिपण्णी
जेमिनी नैनो मॉडल क्रोम में स्थानीय LLM पहली बार उपयोग पर प्रॉम्प्ट API से डाउनलोड
प्रॉम्प्ट एपीआई (window.ai) प्रयोगात्मक (क्रोम 127/128+) स्ट्रीमिंग और नॉन-स्ट्रीमिंग प्रॉम्प्ट्स का समर्थन
सारांशक / लेखक / पुनर्लेखक एपीआई डॉक्यूमेंटेशन / अर्ली प्रिव्यू के माध्यम से उपलब्ध वेब या एक्सटेंशन्स के भीतर उपयोग के लिए
हार्डवेयर आवश्यकताएं ≥22 GB डिस्क और 4 GB VRAM आवश्यक डिवाइस संगतता सीमित करती हैं
तथ्यात्मक सटीकता और बड़े संदर्भ सीमित CAG टूलिंग से क्षमताओं का विस्तार संभव
मल्टी-टैब क्वेरी योजना में फिलहाल केवल एक टैब के लिए

अंतिम विचार

क्रोम का बिल्ट-इन एआई, जो जेमिनी नैनो द्वारा संचालित है, एक तकनीकी मील का पत्थर है—यह GPT-शैली की विशेषताओं को सीधे ब्राउज़र में प्राइवेसी, ऑफ़लाइन क्षमता और व्यापक विस्तार के साथ प्रदान करता है। यह अभी शुरुआती अवस्था में है, लेकिन डेवलपर्स प्रॉम्प्ट एपीआई के उपयोग से न्यूनतम विलंबता और बिना कोई आवर्ती लागत के अभिनव उपयोग के मामलों का परीक्षण कर सकते हैं।

भविष्य में मल्टी-टैब समर्थन, एजेंटिक क्रियाएँ, और गहराई से वेब इंटरैक्शन क्षमताओं की उम्मीद करें, विशेष रूप से तब जब मारिनर और एजेंट मोड जैसे प्रोजेक्ट परिपक्व हों।

डेवलपर्स के लिए: प्रॉम्प्ट एपीआई के साथ शुरुआत करें, अर्ली प्रिव्यू प्रोग्राम में शामिल हों, और ऑन-डिवाइस क्षमताओं को क्लाउड-आधारित फॉलबैक्स के साथ संयोजित करें ताकि मजबूत हाइब्रिड एप्लिकेशन बनाए जा सकें।

Categories