Il keynote inaugurale di Google I/O 2024, guidato da Sundar Pichai, ha messo in evidenza l’importanza dell’intelligenza artificiale (AI) nelle nuove funzionalità e aggiornamenti. Tra le principali novità, Gemini 1.5 Pro offre una migliore comprensione delle immagini e una finestra di contesto raddoppiata. Novità sul fronte foto, video e anche su Search.
Poco (davvero poco) hardware e tanta (davvero tanta) AI.
Così potremmo riassumere in sintesi estrema gli annunci del keynote inaugurale di Google I/O 2024, la conferenza annuale per sviluppatori di Google, aperta come ogni anno da Sundar Pichai, CEO della società.
Due ore nel corso delle quali l’AI è stata la protagonista assoluta, con l’annuncio di una serie di nuove funzionalità e aggiornamenti pensati per migliorare la sua suite di strumenti e applicazioni AI. Dall’ottimizzazione degli assistenti AI ai modelli generativi avanzati, Google I/O 2024 ha evidenziato l’impegno dell’azienda nell’integrare l’AI su tutte le sue piattaforme.
L’Era Gemini
Sul punto Sundar Pichai è stato chiaro fin dalle battute iniziali.
“Google I/O è più o meno come l’Eras Tour – ha esordito, con un evidente richiamo al fortunatissimo tour di Taylor Swift -, ma con meno costumi”.
Non sarà l’Eras Tour, ma per Google è iniziata l'”Era Gemini,” come sottolinea a più riprese lo stesso Pichai, che nelle due ore di keynote, per sua stessa ammissione e grazie a un conteggio esatto ad opera proprio dell’Intelligenza Artificiale, ripeterà “AI” per ben 121 volte.
Ma vediamo una sintesi dei principali annunci.
Google I/O 2024, focus su Gemini 1.5 Pro
Sul fronte Gemini, che ancora un anno fa si chiamava Bard, viene annunciato Gemini 1.5 Pro, una versione migliorata dell’AI di Google, ora disponibile per gli abbonati a Gemini Advanced e per gli sviluppatori. Questa versione offre una migliore comprensione delle immagini e raddoppia la finestra di contesto da 1 milione a 2 milioni di token, consentendo un’elaborazione delle informazioni più approfondita e un’analisi più completa. La finestra di contesto, per amor di precisione, è il numero di token sul quale un modello può lavorare. Più ampie sono le finestre di contesto, più i LLM sono in grado di elaborare documenti più lunghi e di estendere le loro capacità di apprendimento contestuale.
Le funzionalità di Gemini saranno disponibili per un maggior numero di utenti, si integreranno nel pannello laterale di Gmail, Documenti, Drive, Presentazioni e Fogli e saranno aggiunte anche all’app mobile di Gmail. Ad esempio, in Google Workspace, Gemini 1.5 Pro può riassumere email, organizzare messaggi ed esportare dati, mentre sarà integrato anche il nuovo modello LearnLM, progettato per assistere con compiti educativi come i compiti a casa e la pianificazione delle lezioni.
Tutte queste funzionalità verranno lanciate per gli utenti di Labs il prossimo mese, con ulteriori funzionalità come l’automazione dei flussi di lavoro previste per l’autunno.
Sempre nel corso del keynote, è stato sottolineato come Gemini 1.5 Pro supporti più di 35 lingue e come gli abbonati a Gemini Advanced, ora disponibile anche in italiano, avranno presto accesso anche a Live, una nuova esperienza di conversazione mobile.
Sempre restando in ambito Gemini, è stato annunciato Gemini 1.5 Flash, un nuovo modello di AI ottimizzato per attività ad alto volume e frequenza su larga scala, più conveniente e dotato di una lunga finestra di contesto. Sebbene meno potente di 1.5 Pro, offre eccellenti capacità di ragionamento multimodale su grandi quantità di informazioni e una qualità notevole per le sue dimensioni. È ideale per riassunti, applicazioni di chat, sottotitoli di immagini e video, e l’estrazione di dati da documenti e tabelle lunghe.
Generazione multimodale e Progetto Astra
I progressi di Google nell’AI multimodale sono stati anch’essi evidenziati, con la capacità di Gemini di comprendere e generare contenuti attraverso diversi tipi di media. Questo include testo, immagini e video, fornendo un’esperienza AI più completa.
Tuttavia, uno dei punti salienti del keynote è stato la presentazione del Progetto Astra, che sfrutta Gemini per creare conversazioni più naturali e risposte più rapide grazie alla memorizzazione delle informazioni. Questo progetto mira a rendere gli assistenti AI più intuitivi e reattivi, utilizzando l’elaborazione video migliorata per rispondere a domande vocali basate su ciò che l’utente punta con la fotocamera.
Presentato dal CEO di DeepMind Demis Hassabis, Astra è la versione preliminare di un assistente universale alimentato dall’AI che, “che può essere utile nella vita quotidiana.”
Google I/O 2024: Ask Photos
Novità arrivano anche sul fronte Google Photos, con l’annuncio di Ask Photos una funzionalità che sfrutta l’intelligenza artificiale per migliorare la gestione delle librerie fotografiche personali. Oltre a individuare dettagli specifici, come una targa, è in grado di rispondere a domande complesse, ad esempio trovare i migliori ristoranti per un anniversario in Texas, tenendo conto dei fattori stagionali. Per gli abbonati a Google One negli Stati Uniti, la funzione consente di richiedere foto specifiche, come “la migliore foto di ogni parco nazionale visitato,” utilizzando dati GPS e l’AI per selezionare le immagini migliori. Inoltre, Ask Photos può generare didascalie per facilitare la condivisione sui social media, rappresentando un notevole avanzamento nell’uso dell’AI per l’organizzazione e la ricerca di foto.
Google I/O 2024: Le novità in ambito Search
Google sta introducendo anche cambiamenti significativi nel funzionamento del suo motore di ricerca.
Una delle principali novità è AI Overviews, una funzionalità che presenta risposte generate dall’IA in cima ai risultati di ricerca per impostazione predefinita. Disponibile negli Stati Uniti e entro la fine dell’anno in tutto il resto del mondo, AI Overviews fornisce riassunti generati dall’IA dei risultati di ricerca, semplificando il processo di ricerca elaborando e organizzando le informazioni. Questa funzione rende più facile per gli utenti trovare ciò che cercano, migliorando l’esperienza di ricerca con risultati più dettagliati e strutturati.
Altre funzionalità, come la capacità di porre domande molto complesse o la possibilità di utilizzare Search per pianificare uscite o vacanze, saranno disponibili solo per chi aderisce a Search Labs.
Imagen 3, Veo, Music Ai Sandbox: modelli generativi avanzati
Tra gli strumenti presentati nel corso del keynote anche Imagen 3, ultima versione del modello di generazione di immagini. Imagen 3 offre una migliore comprensione del testo e una generazione di immagini più dettagliata, ampliando le possibilità creative per gli utenti.
Parallelamente, Veo, un nuovo modello generativo basato su DeepMind, consente la creazione di video da testo, immagini e prompt video. Questo strumento permette una produzione video dettagliata e cinematografica, offrendo nuove opportunità per i creatori di contenuti.
Non si può non citare Music Ai Sandbox. sandbox musicale, sviluppato in collaborazione con YouTube, che fornisce strumenti AI per la generazione musicale, espandendo ulteriormente le capacità di AI generativa di Google.
Google I/O 2024: Gemini in Android
Infine, La nuova app mobile Gemini in Android 15 introduce diverse funzionalità come conversazioni vocali in tempo reale con l’AI, integrazione della fotocamera per query visive e una funzione chiamata Gems. Gems permette agli utenti di creare set di istruzioni che possono accedere a Google Drive per eseguire compiti complessi frequentemente. Questa funzionalità mira a semplificare processi come la prenotazione di viaggi e altre attività di ricerca intensiva.
Arrivano i Trillium di sesta generazione
Infine, come abbiamo accennato all’inizio, c’è stato davvero poco spazio per l’hardware nel corso del keynote. Ma una novità c’è. Sono stati annunciati i nuovi chip Trillium di sesta generazione, con un aumento della potenza di calcolo di 4,7 volte rispetto ai modelli precedenti. L’ampiezza di banda della High Bandwidth Memory (HBM) e dell’Interchip Interconnect (ICI) è stata raddoppiata. Inoltre, il nuovo chip Trillium è equipaggiato con un chip SparseCore di terza generazione, un acceleratore specializzato per l’elaborazione di carichi di lavoro complessi di classificazione e raccomandazione. Le TPU Trillium permettono di addestrare più rapidamente i modelli di base di nuova generazione e di eseguire tali modelli con una latenza ridotta e a costi inferiori. Google ha anche posto attenzione alla sostenibilità: le TPU Trillium sono oltre il 67% più efficienti dal punto di vista energetico rispetto alle TPU v5e.