Google Gemini: l’intelligenza artificiale ora “vede” il mondo

Sundar Pichai, N.1 di Google, durante la presentazione di Gemini

Per approfondire:

Articolo: Meta AI arriva in Italia ed Europa: ecco come usarlo su WhatsApp, Facebook e Instagram
Articolo: L’Ai bara a scacchi: perché dovrebbe preoccuparci
Articolo: Attacchi hacker e intelligenza artificiale vanno a braccetto sul furto di dati

Negli ultimi anni, l’intelligenza artificiale (AI) è diventata una presenza costante nelle nostre vite: ci aiuta a scrivere email, a trovare risposte rapide e persino a organizzare la giornata. Ma Google, con il suo modello Gemini, sta portando questa tecnologia a un livello completamente nuovo. Con l’ultima release, annunciata a marzo 2025, Gemini Live non è più solo un assistente vocale o testuale: ora può “vedere” il mondo attraverso le fotocamere dei nostri dispositivi, dai telefoni ai Pc, e interagire con ciò che osserva in tempo reale. Questa novità rappresenta un passo avanti straordinario, che potrebbe cambiare il modo in cui utilizziamo la tecnologia ogni giorno.

Un’AI che guarda e capisce

Immaginate di puntare la fotocamera del vostro smartphone o PC su un oggetto – magari un vaso che avete appena dipinto – e di chiedere all’AI: “Quale colore starebbe meglio con questo?”. Oppure di mostrare un grafico complicato sullo schermo e ottenere una spiegazione chiara e immediata. Questo è esattamente ciò che Gemini Live può fare ora, grazie a un aggiornamento che integra capacità visive avanzate. L’AI non si limita più a elaborare testi o comandi vocali: può analizzare immagini, flussi video e persino ciò che appare sullo schermo in tempo reale, rispondendo alle nostre domande con una naturalezza sorprendente.

Questa innovazione si basa su un progetto chiamato Astra, che Google ha presentato circa un anno fa e che ora sta finalmente prendendo forma. Astra è stato pensato per dare all’AI una “vista” sul mondo, e con Gemini Live questa visione diventa realtà. Ad esempio, in un video dimostrativo diffuso da Google, un utente chiede a Gemini di suggerire un colore per della ceramica appena smaltata. L’AI osserva l’oggetto attraverso la fotocamera, analizza i dettagli e propone una tonalità adatta – tutto in pochi secondi. È come avere un assistente personale che non solo ascolta, ma guarda e ragiona insieme a noi.

Come funziona questa magia tecnologica

Ma come riesce Gemini a fare tutto questo? Dietro le quinte c’è un mix di intelligenza artificiale avanzata e tecnologie di visione artificiale. Quando attiviamo la funzione “Live” e condividiamo il flusso della fotocamera o dello schermo, Gemini utilizza modelli di apprendimento profondo per riconoscere oggetti, colori, testi e persino contesti. Questi modelli sono stati addestrati su enormi quantità di dati visivi, permettendo all’AI di identificare ciò che vede con una precisione impressionante.

Per gli utenti con un piano Google One AI Premium, questa funzionalità è già in fase di distribuzione. Basta aprire l’app Gemini su un dispositivo compatibile, attivare la modalità Live e puntare la fotocamera su ciò che vogliamo analizzare. L’AI elabora il feed in tempo reale e risponde alle nostre domande, che si tratti di identificare un fiore, tradurre un cartello o spiegare un diagramma sullo schermo. È un’esperienza fluida, quasi magica, che supera di gran lunga le capacità di assistenti come Alexa o Siri, almeno per ora.

L'intelligenza artificiale messa a punto da Google ora è anche in grado di "vedere" da Pc e smartphone

Non solo fotocamere: Gemini e lo schermo del Pc

Una delle novità più interessanti è l’interazione di Gemini con le fotocamere dei Pc. Fino a poco tempo fa, queste funzioni erano limitate agli smartphone, ma ora Google sta estendendo le capacità visive di Gemini anche ai computer. Questo significa che potremo usare la webcam del nostro laptop per mostrare qualcosa all’AI – magari un disegno fatto a mano o un oggetto sulla scrivania – e ricevere suggerimenti o informazioni immediate. Ancora più sorprendente è la capacità di Gemini di “vedere” ciò che appare sullo schermo del PC. Ad esempio, se stiamo guardando un video su YouTube o un documento complesso, possiamo chiedere all’AI di analizzarlo e darci un riassunto o un chiarimento, senza dover copiare e incollare nulla.

Questa funzione è particolarmente utile per chi lavora o studia. Pensate a uno studente che deve decifrare un grafico scientifico: basterà mostrarlo a Gemini per ottenere una spiegazione passo-passo. Oppure a un professionista che vuole confrontare dati visivi in tempo reale: l’AI può diventare un vero e proprio collaboratore digitale. Tutto questo è reso possibile dall’integrazione di Gemini con l’ecosistema Google, che permette all’AI di accedere e interpretare contenuti da app come YouTube, Files e persino Google Search.

Una rivoluzione per la vita quotidiana

Le possibilità offerte da questa nuova versione di Gemini sono infinite. Per i creativi, può essere un aiuto per scegliere colori, materiali o ispirazioni. Per i viaggiatori, può tradurre insegne o identificare monumenti in tempo reale. Per chi ama cucinare, potrebbe guardare una ricetta sullo schermo e suggerire modifiche basate sugli ingredienti che abbiamo in casa. E per chi ha bisogno di assistenza tecnica, potrebbe “vedere” un problema su un dispositivo e guidarci nella soluzione.

Non mancano però alcune limitazioni iniziali. Al momento, queste funzioni avanzate sono riservate agli abbonati al piano Google One AI Premium, e la distribuzione sta avvenendo gradualmente, con priorità data agli Stati Uniti. In Italia, come spesso accade con le novità tecnologiche, potremmo dover aspettare un po’ di più. Inoltre, l’AI funziona meglio in inglese, anche se Google ha promesso di ampliare presto il supporto ad altre lingue, incluso l’italiano.

Approfondisci:

Tencent lancia l’Ai cinese che imita l’intuizione umana. “È più veloce di DeepSeek”

Il confronto con la concorrenza

Google non è sola in questa corsa all’AI visiva. Amazon sta preparando Alexa Plus, che promette capacità simili, mentre Apple ha rimandato l’aggiornamento di Siri a una versione più avanzata. Tuttavia, Gemini sembra avere un vantaggio, grazie alla sua integrazione con l’ecosistema Google e alla velocità con cui queste novità stanno arrivando agli utenti. Samsung, ad esempio, ha già scelto Gemini come assistente predefinito sui suoi telefoni, segno che l’AI di Google sta conquistando terreno.

Oltre la vista: altre novità di Gemini

L’aggiornamento di marzo 2025 non si limita alle capacità visive. Gemini Live ora supporta conversazioni più naturali, comprendendo diverse lingue, accenti e dialetti in una singola chiacchierata. Inoltre, con Gemini 2.0 Flash Thinking Experimental, l’AI è più veloce e può elaborare file caricati dagli utenti, come PDF o immagini, per fornire risposte personalizzate. Altre funzioni in arrivo includono la generazione di video brevi (fino a 8 secondi) con il modello Veo 2 e un’integrazione ancora più profonda con Google Home per controllare dispositivi smart con comandi visivi.

Privacy e futuro

Un aspetto cruciale è la privacy. Google ha assicurato che i dati visivi condivisi con Gemini Live saranno gestiti con attenzione, archiviati in modo sicuro e cancellabili dall’utente in qualsiasi momento. Tuttavia, come per ogni tecnologia che “vede” il nostro mondo, è importante usarla con consapevolezza.

Guardando avanti, il futuro di Gemini sembra luminoso. Con l’espansione di Project Astra e l’arrivo di nuove funzionalità, come la condivisione dello schermo in tempo reale e la generazione di contenuti multimediali, Google sta costruendo un assistente AI che non solo risponde, ma collabora attivamente con noi. Entro la fine del 2025, Gemini potrebbe sostituire completamente Google Assistant su tutti i dispositivi mobili, segnando l’inizio di una nuova era digitale.

Tag dell'articolo

Intelligenza artificiale Google Gemini