Una conferenza degli sviluppatori di BigG più ricca che mai quella che si svolge in questi giorni a Mountain View, con l’AI generativa che occupa tutti gli spazi
Che l’AI generativa sia protagonista assoluta di tutti gli annunci degli ultimi tempi è sotto gli occhi di tutti. Non ha fatto eccezione a questa regola Google I/O 2024, la conferenza degli sviluppatori di Mountain View, iniziata il 14 maggio. È qui che, al termine dei keynote di apertura andati in scena nel giorno inaugurale dell’evento allo Shoreline Amphiteatre adiacente al GooglePlex, il quartier generale di BigG nel cuore della Silicon Valley, il numero uno Sundar Pichai ha sottolineato con una buona dose di ironia che "nelle quasi due ore di interventi l’espressione AI era stata citata 120, anzi 121, volte": praticamente una volta al minuto.
Sundar Pichai conclude il keynote di Google I/O 2024
Del resto non avrebbe potuto essere altrimenti: come era nelle aspettative, la protagonista assoluta del Google I/O 2024 è stata Gemini, l'intelligenza artificiale made in Mountain View e lanciata nell’ormai lontano (in termini di AI generativa) dicembre 2023, illustrata in più salse nel corso dei diversi interventi che si sono succeduti durante l’evento, anche perché è destinata a essere presente in tutti i servizi Google, a partire ovviamente dalla classica ricerca di Google Search.
Anche se alcune delle cose viste nelle due ore del keynote non sono ancora disponibili, e anche se non è detto che tutte vengano rese disponibili in Italia, vale comunque la pena di fare una carrellata sui principali annunci. Il cui comune denominatore è stato sintetizzato da Sundar Pichai, che ha voluto sottolineare come “Google sia nel pieno dell'era Gemini, con innovazioni che rappresentano un passo che ci porta sempre più vicini al nostro obiettivo finale di rendere l'AI utile per tutti”.
Tra le novità annunciate, verrà introdotto Gemini 1.5 Pro agli abbonati di Gemini Advanced, in più di 35 lingue, insieme a una finestra contestuale da 1 milione di token, presentata come la più lunga di qualsiasi chatbot consumer disponibile al momento. Secondo Google, in questo modo Gemini 1.5 Pro è in grado di comprendere più informazioni di prima, come per esempio un PDF di 1500 pagine e, presto, 30.000 righe di codice e un video di un'ora.
Non solo: gli abbonati a Gemini Advanced, che già da oggi è disponibile anche in italiano, avranno presto accesso anche a Live, una nuova esperienza di conversazione mobile. Con Live è possibile parlare con Gemini scegliendo tra diverse voci dall'audio naturale. È possibile parlare al proprio ritmo e persino interrompere facendo domande, rendendo le conversazioni più intuitive.
Ma un annuncio importante è anche quello che il lavoro sui modelli del futuro ovviamente prosegue: sono infatti stati condivisi maggiori dettagli su Gemini 1.5 Flash, un modello pensato per essere veloce e efficiente sulla base del feedback degli utenti, con latenze più basse, e su Project Astra, la visione di Google per la nuova generazione di assistenti AI, un agente reattivo in grado di comprendere e reagire al contesto delle conversazioni.
Non è mancata una demo di preview sull’evoluzione di Gemini Nano, cioè il modello di AI residente sul dispositivo, che a partire da metà 2024 guarderà anche alle immagini oltre che agli input scritti. Cominciando dai Pixel, gli smartphone di casa Google, le app che utilizzano Gemini Nano riusciranno a capire il contesto anche attraverso la cam, i suoni e le parole.
È stato ribadito che tutti i prodotti Google, per un totale di più di due miliardi di utenti, sono oggi sono integrati con Gemini. E questo sottolinea Google “aiuta a creare nuove esperienze e a rendere i nostri prodotti ancora più utili”.
Gli esempi non sono mancati, a cominciare dall’Espansione dei riepiloghi dell'AI in Google Search. Con un nuovo modello Gemini personalizzato, in grado di ragionare in più fasi, di pianificare e di utilizzare la multimodalità, combinato con il noto motore di ricerca targato Google, le persone saranno “presto in grado di porre domande complesse e in più fasi, di personalizzare i risultati della ricerca e persino di porre domande attraverso video”.
Di rilievo anche i nuovi modi di interagire con Gemini in Google Workspace: le funzionalità di Gemini saranno disponibili per un maggior numero di utenti e si integreranno nel pannello laterale di Gmail, Documenti, Drive, Presentazioni e Fogli. Le funzionalità di Gemini saranno aggiunte anche all'app mobile di Gmail.
È anche stato presentato Ask Photos, Chiedi a Foto, una nuova funzionalità di Google Foto che utilizza l'AI di Gemini per aiutare gli utenti a trovare e rivivere i propri ricordi fotografici in maniera più intuitiva.
Anche i creativi non sono stati dimenticati: con Veo e con Imagen 3, Google ha voluto “esplorare come l'AI generativa possa supportare al meglio il processo creativo e assicurarsi che i propri strumenti di AI siano il più utili possibile in ogni fase”. Se Veo è un modello per generare video ad alta definizione, Imagen 3, è invece un modello text-to-image di altissima qualità.
Nel dettaglio, Veo genera video di alta qualità con una risoluzione di 1080p che possono superare il minuto, con molti stili visivi e cinematografici diversi. Con una comprensione avanzata del linguaggio naturale e della semantica visiva, Veo può generare video che rappresentino con precisione la visione creativa dell’utente, ed è anche in grado di comprendere anche termini cinematografici come “timelapse” o “riprese aeree di paesaggi” e creare filmati coerenti: persone, animali e oggetti si muovono in modo realistico attraverso le inquadrature.
Smartphone finalmente smart
Infine, com’è ovvio che sia, Gemini è sempre più integrato anche nel sistema operativo Android. Tra gli highlight di questa integrazione, vi sono le nuove capacità di Cerchia e cerca, Circle to Search, la funzionalità per la ricerca rapida e smart vista in occasione del debutto degli smartphone Galaxy S24 di Samsung e poi installata sui più recenti Pixel, gli smartphone di BigG.
Non solo: l'overlay di Gemini, fa sapere Google, fornirà suggerimenti creativi relativi a ciò che appare sullo schermo, come il riassunto di un PDF o "chiedi questo video", mentre TalkBack con Gemini sarà in grado di fornire descrizioni di immagini ancora più dettagliate. L’intenzione è quella di “rendere gli smartphone veramente smart, per interagire con i dispositivi in modalità completamente nuove”, ha sintetizzato Sameer Samat, President dell’Android Ecosystem di Google.