Η Ενσωματωμένη Τεχνητή Νοημοσύνη του Chrome: Το Gemini Nano Ενεργοποιεί Την Νοημοσύνη Στη Συσκευή

Το Google Chrome πρόσθεσε το Gemini Nano—ένα ελαφρύ LLM—απευθείας στον περιηγητή μέσω του Prompt API

Η Ενσωματωμένη Τεχνητή Νοημοσύνη του Chrome: Το Gemini Nano Ενεργοποιεί Την Νοημοσύνη Στη Συσκευή

Το Google Chrome προσέθεσε το Gemini Nano—ένα ελαφρύ LLM —απευθείας στον περιηγητή μέσω του Prompt API. Το άρθρο αυτό εξερευνά την τεχνική του αρχιτεκτονική, τα APIs για προγραμματιστές, τους περιορισμούς και τις μελλοντικές δυνατότητες.


Τι Είναι το Gemini στο Chrome;

Στο Google I/O 2025, η Google αποκάλυψε την ενσωμάτωση της Gemini AI στις εκδόσεις desktop του Chrome (Beta, Dev, Canary), διαθέσιμη για τους συνδρομητές AI Pro / Ultra στα αγγλικά σε Windows και macOS (όπως αναφέρθηκε σε άρθρο του Verge για το Google I/O 2025).
Οι χρήστες αλληλεπιδρούν μέσω ενός νέου εικονιδίου στη γραμμή εργαλείων, το οποίο ανοίγει ένα περιβάλλον συνομιλίας που "βλέπει" το περιεχόμενο της τρέχουσας σελίδας — ιδανικό για περίληψη, διευκρίνιση, σύγκριση ή εξαγωγή δεδομένων απευθείας από τη σελίδα (όπως περιγράφεται στο άρθρο του Verge) και σύμφωνα με άλλο άρθρο του Verge για τις λειτουργίες agentic.

Το Gemini διαχειρίζεται προς το παρόν μόνο μία καρτέλα κάθε φορά, αλλά η υποστήριξη για ερωτήματα σε πολλές καρτέλες ταυτόχρονα προγραμματίζεται για το 2025 (σύμφωνα με αναφορές από το Verge). Προσφέρει επίσης ζωντανή φωνητική αλληλεπίδραση, χρήσιμη για αναγνώριση εργαλείων ή συνταγών σε βίντεο YouTube (σύμφωνα με άλλο άρθρο του Verge για τις λειτουργίες agentic).


Τεχνικό Στοίχημα & Prompt API

Gemini Nano: Το Τοπικό LLM

Το Chrome αυτόματα κατεβάζει το Gemini Nano στην πρώτη χρήση· αυτό το μικρό μοντέλο εκτελείται πλήρως μέσα στον περιηγητή χρησιμοποιώντας WebAssembly/WebGPU χωρίς κλήσεις στο cloud, όπως εξηγείται σε έναν τεχνικό οδηγό στο web.dev.
Είναι βελτιστοποιημένο για περίληψη, ταξινόμηση, αναδιατύπωση κλπ., όχι για σύνθετη λογική ή ακριβείς ερωτήσεις γεγονότων, σύμφωνα με ανάλυση από το Thinktecture Labs.

Το Gemini Nano μοιράζεται ανάμεσα σε καταγωγές (origins), οπότε μόλις εγκατασταθεί ωφελεί όλες τις ιστοσελίδες και επεκτάσεις με υποστήριξη AI σε αυτήν τη συσκευή, όπως περιγράφεται στο web.dev documentation.

Prompt API (window.ai.languageModel)

Το πειραματικό Prompt API επιτρέπει στους προγραμματιστές να καλούν το Gemini Nano μέσω JavaScript όπως εξηγείται από το Thinktecture Labs.

Βασικές μέθοδοι:

const session = await self.ai.languageModel.create({ systemPrompt });
const result = await session.prompt("Εδώ το prompt σας");         // μη ροή (non-streaming)
const stream = session.promptStreaming("Μεγάλο prompt…");          // απάντηση σε ροή (streaming)

Οι προγραμματιστές μπορούν να παραμετροποιήσουν θερμοκρασία και topK για πιο δημιουργική έξοδο.

Διατίθεται σε συμμετέχοντες στο Early Preview Program (EPP) και σε επεκτάσεις Chrome μέσω origin trial.

Απαιτήσεις & Ρυθμίσεις

  • Πλατφόρμες: Windows 10/11, macOS 13 (Ventura)+, Linux· δεν υποστηρίζεται σε Android, iOS ή ChromeOS.
  • Υλικό: ≥ 22 GB ελεύθερος χώρος δίσκου, GPU με ≥ 4 GB VRAM απαιτείται για το κατέβασμα και το inference του μοντέλου.

Βήματα ρύθμισης:

  1. Εγκαταστήστε Chrome Canary ή Beta (έκδοση 127+).
  2. Ενεργοποιήστε τις flags: #prompt-api-for-gemini-nano και #optimization-guide-on-device-model (με επιλογή παράκαμψης).
  3. Μεταβείτε στο chrome://components και ενημερώστε το On-Device Model component.
  4. Χρησιμοποιήστε την κονσόλα προγραμματιστή για να δοκιμάσετε την πρόσβαση στο window.ai.

Χρήσεις για Προγραμματιστές & Επιδόσεις

  • Διαθέσιμα APIs: Συνοπτικό, Μεταφραστής, Συγγραφέας, Αναδιατυπωτής μέσω του ενσωματωμένου AI.
  • Παραδείγματα χρήσης: προσαρμοσμένες επεκτάσεις Chrome όπως αυτόματη συμπλήρωση ημερολογίου, θόλωση ανεπιθύμητου περιεχομένου ή εξαγωγή επαφών—χωρίς δικτυακές αιτήσεις σε διακομιστές.
  • Προτεραιότητα στη λειτουργία εκτός σύνδεσης και την ιδιωτικότητα, κοινή χρήση μεταξύ καταγωγών: χωρίς επιπλέον κόστος και εξαρτήσεις δικτύου.

Η απόδοση εξαρτάται από το υλικό· μεγάλα έγγραφα μπορεί να υπερβούν το παράθυρο συμφραζομένων (context window) του Gemini Nano. Εργαλεία όπως το Chunked Augmented Generation (CAG) αντιμετωπίζουν αυτούς τους περιορισμούς με έξυπνο κατακερματισμό prompts.

Περιορισμοί και Ιδιωτικότητα

  • Το Gemini Nano δεν είναι βελτιστοποιημένο για ακρίβεια γεγονότων, οπότε μεταδεδομένα ή ακριβής γνώση ενδέχεται να μην είναι αξιόπιστα.
  • Η τρέχουσα διεπαφή υποστηρίζει μόνο το περιεχόμενο μιας καρτέλας (υποστήριξη πολλαπλών καρτελών θα προστεθεί).
  • Το UI σε μίνι παράθυρο μπορεί να κόβει μεγάλες απαντήσεις· η εμπειρία χρήστη μπορεί να φανεί αδέξια αν οι απαντήσεις δεν είναι περιεκτικές.

Οι υποσχέσεις ιδιωτικότητας βασίζονται στην τοπική εκτέλεση, αλλά απαιτείται εμπιστοσύνη στον τρόπο χειρισμού της αποθήκευσης μοντέλου και συμφραζομένων από το Chrome.

Πίνακας Σύγκρισης

Χαρακτηριστικό Κατάσταση Παρατηρήσεις
Μοντέλο Gemini Nano Τοπικό LLM στο Chrome Κατεβαίνει στην πρώτη χρήση μέσω Prompt API
Prompt API (window.ai) Πειραματικό (Chrome 127/128+) Υποστηρίζει streaming και μη streaming prompts
APIs Συνοπτικό / Συγγραφέας / Αναδιατύπωσης Διαθέσιμα μέσω docs / Early Preview Χρήση σε ιστό ή επεκτάσεις
Απαιτήσεις Υλικού Απαιτεί ≥22 GB δίσκο και 4 GB VRAM Περιορισμένη συμβατότητα συσκευών
Ακρίβεια γεγονότων και μεγάλο context Περιορισμένη Υπάρχουν εργαλεία CAG για επέκταση δυνατοτήτων
Ερωτήματα πολλαπλών καρτελών Σχεδιασμένο Προς το παρόν μόνο μία καρτέλα

Τελικές Σκέψεις

Η ενσωματωμένη τεχνητή νοημοσύνη του Chrome με βάση το Gemini Nano αποτελεί τεχνικό ορόσημο—παρέχοντας λειτουργίες τύπου GPT απευθείας στον περιηγητή με σεβασμό στην ιδιωτικότητα, υποστήριξη εκτός σύνδεσης και ευρεία επεκτασιμότητα. Αν και βρίσκεται στα πρώτα στάδια, οι προγραμματιστές μπορούν να πειραματιστούν με το Prompt API για να δημιουργήσουν καινοτόμες λύσεις με ελάχιστη καθυστέρηση και χωρίς επαναλαμβανόμενα κόστη.

Αναμένονται μελλοντικές βελτιώσεις—συμπεριλαμβανομένης της υποστήριξης πολλαπλών καρτελών, agentic ενεργειών και βαθύτερης αλληλεπίδρασης με τον ιστό—όταν ωριμάσουν προγράμματα όπως το Mariner και το Agent Mode.

Για προγραμματιστές: ξεκινήστε με το Prompt API, εγγραφείτε στο Early Preview Program, και συνδυάστε τις δυνατότητες τοπικής επεξεργασίας με υποστήριξη στο cloud για ισχυρές υβριδικές εφαρμογές.

Categories