Ecco GPT-4o: tutto quello che serve sapere sulla AI multimodale di OpenAI, e non solo…

Alcuni giorni prima dello spring update, uno degli eventi annuali di OpenAI, il CEO Sam Altman aveva postato su X: “Non è GPT-5, non è un motore di ricerca. Abbiamo lavorato duro su alcune nuove feature e pensiamo che le persone le adoreranno! Mi sembrano magia”.

Sam Altman ha dunque tenuto ancora una volta fede ad una strategia che non prevede a breve una nuova generazione di modelli, ma mira a perfezionare l’enorme lavoro eseguito su GPT-4, per sfruttarne appieno le straordinarie potenzialità.

Nei 26 minuti della presentazione ufficiale, GPT-4o ha dimostrato nuovi progressi per il chatbot basato sulla AI multimodale di OpenAI, sia sul piano delle funzioni che della rapidità di interazione, ormai indistinguibile dal tempo reale. La nuova versione ha dimostrato, nonostante qualche intoppo a livello interpretativo, di saper riconoscere e discutere i contenuti delle immagini, tradurre lingue e identificare emozioni a partire dalle espressioni visive degli interlocutori umani, adattando di conseguenza il tono della conversazione.

Nel corso dello streaming dalla sede OpenAI di San Francisco, il CTO Mira Murati ha focalizzato la questione nella frase che segue: “GPT-4o ragiona attraverso la voce, il testo e la visione. E questo è incredibilmente importante, perché stiamo guardando al futuro dell’interazione tra noi e le macchine“.

In un articolo sul sito ufficiale, OpenAI ha precisato i propri obiettivi riguardo GPT-4o: “Oggi, GPT-4o è molto meglio di qualsiasi modello esistente nel comprendere e discutere le immagini che condividi. Ad esempio, ora puoi scattare una foto di un menu in una lingua diversa e parlare con GPT-4o per tradurlo, conoscere la storia e il significato del cibo e ottenere consigli”.

Quanto presentato costituisce una versione alpha delle applicazioni vocali che verranno integrate anche in ChatGPT, il chatbot basato sul modello AI GPT-4: “In futuro, i miglioramenti consentiranno conversazioni vocali più naturali e in tempo reale e la possibilità di conversare con ChatGPT tramite video in tempo reale. Ad esempio, potresti mostrare a ChatGPT una partita sportiva in diretta e chiedergli di spiegarti le regole. Abbiamo in programma di lanciare una nuova modalità vocale con queste nuove funzionalità in versione alpha nelle prossime settimane, con accesso anticipato per gli utenti Plus man mano che implementeremo in modo più ampio”.

GPT-4o: la risposta obbligata di OpenAI sul tema della sicurezza

Più volte al centro di polemiche relative alla sicurezza e alla privacy dei dati, oltre che delle possibili violazioni dei diritti d’autore relativi ai contenuti utilizzati per il training del modello GPT-4, OpenAI ha utilizzato il lancio di GPT-4o per puntualizzare alcuni aspetti, relativi all’impegno assunto in questa direzione.

GPT-4o viene definito sicuro per design, in quanto tutti gli step di training e tuning del modello sarebbero stati intrapresi in funzione del filtraggio dei potenziali dati non sicuri.

OpenAI ha dichiarato di aver implementato nuovi sistemi di sicurezza a garanzia degli output vocali, oltre ad essere stato testato e valutato con la collaborazione di oltre 70 esperti indipendenti, provenienti da vari settori in ambito tecnologico, psicologico ed etico-sociale, per evitare pregiudizi, garantire equità e scongiurare i rischi legati alla disinformazione.

A differenza di quanto avviene per testo e immagini, le funzioni vocali rimarranno ancora in fase alpha e, considerato il rischio elevato che potrebbe conseguire da un utilizzo improprio, le API e le risorse utili allo sviluppo verranno inizialmente condivise soltanto con una ristretta platea di partner selezionati.

AI multimodale: non solo linguaggio naturale, anche audio e video

GPT-4o rappresenta una tappa fondamentale nella storia della AI multimodale, tecnologia che segna un fondamentale punto di svolta rispetto al machine learning tradizionale.

La AI multimodale è una tecnica di intelligenza artificiale che combina più tipi di dati per comprendere meglio il contesto e prendere, di conseguenza, decisioni più accurate e consapevoli. Mentre i tradizionali sistemi ML utilizzano generalmente una solo tipologia di dati, pur in grandi numeriche, il training degli algoritmi di un sistema AI multimodale prevedono il ricorso a testo, video, audio, voce, ed altre fonti multimediali, oltre ai dati strutturati in forma tabellare.

Concettualmente i sistemi multimodali continuano a seguire le logiche di apprendimento automatico su cui si basa il machine learning nella sua definizione più ampia, e il deep learning più nello specifico. Le reti neurali che caratterizzano un sistema AI multimodale prevedono un training in loop, in cui i dati di output entrano a far parte nell’input model del layer successivo, affinando e rendendo sempre più accurata la knoweledge base del modello AI.

Ma come fa GPT-4o ad essere così veloce nel combinare l’impiego di un numero così elevato di tecnologie?

Una delle principali sfide della AI multimodale, al di là della qualità dei dati, è costituita dal ridurre il numero di interazioni tra le reti neurali. Un esempio pratico è offerto proprio dalla tecnologia GPT-4, sviluppata da OpenAI. Per elaborare una conversazione, GPT-4 ricorre a tre distinti modelli: uno per covertire audio in testo (speech-to-text), uno per elaborare il testo nella lingua prevista ed un terzo per convertire nuovamente il testo in audio (text-to-speech).

Un grande risultato raggiunto da GPT-4o, rispetto alla versione originale, è stato il fatto di elaborare l’intera conversazione, e i relativi input e output, utilizzando un solo modello. Ciò ha sensibilmente ridotto i tempi di latenza delle applicazioni vocali del chatbot AI, portandole da una media di 5,4 secondi (riferimento GPT-4 fornito da OpenAI) a 320 millisecondi, un valore riconducibile a quelli della conversazione umana, pertanto compatibile con l’interazione in tempo reale.

Sam Altman OpenAI

La grande sfida della AI generativa: l’interazione in tempo reale tra uomo e macchina, i rischi relativi alla privacy

GPT-4o è stato paragonato con grande enfasi al sistema AI protagonista di Her, scritto e diretto da Spike Jonze nel “lontano” 2013, giorni in cui rappresentava una science fiction oggi diventata realtà. Nelle vicende narrate, il protagonista, interpretato da un magistrale Joaquin Phoenix si estranea dal contesto reale di una Los Angeles volutamente stilizzata, per intraprendere una relazione sentimentale con l’interfaccia conversazionale AI del sistema operativo commerciale “OS 1” installato sul PC domestico al costo di pochi dollari. La voce di OS 1, che si autonomina Samantha nel corso del primo avvio, nella versione originale del film è prestata da Scarlett Johansson.

Lo stesso Sam Altman, all’indomani dello spring update di OpenAI, ha rimarcato su X l’ispirazione a Her, sottolineando il fatto che si tratti del suo film preferito. La suggestione mira ovviamente rimarcare il fatto che l’interfaccia conversazione delle applicazioni basate su GPT-4o potrà garantire una conversazione il più possibile naturale tra l’uomo e una macchina sempre più indistinguibile dal reale, nei tempi e nella qualità della relazione instaurata.

Riguardo alla demo di GPT-4o presentata nel corso dello spring update, Altman ha espressamente affermato che: “La nuova modalità vocale è la miglior interfaccia per computer che abbia mai utilizzato. Sembra una AI presa da un film, ed è sorprendente quanto sia reale […]

In un post sul proprio sito internet ufficiale, Sam Altman ha inoltre ribadito la promessa di voler rendere ChatGPT gratuito per miliardi di persone: “La nostra idea iniziale quando abbiamo fondato OpenAI era di creare l’IA e usarla per creare il maggior numero di benefici per il mondo. Invece, ora sembra che creeremo l’intelligenza artificiale e poi altre persone la useranno per creare le cose straordinarie di cui tutti beneficiamo […] Siamo un business, troveremo molte situazioni profittevoli, e questo ci aiuterà a fornire un servizio di intelligenza artificiale gratuito ed eccezionale a (si spera) miliardi di persone”.

Nelle parole di Altman emerge ancora una volta un modello di business tipico dei big tech, su cui si è basata la straordinaria fortuna economica dei principali protagonisti del Web 2.0, grazie alla capacità di generare valore attraverso ai dati e ai contenuti creati dagli utenti (user generated content).

La concorrenza a OpenAI nell’ambito della AI multimodale non manca, e non sta di certo a guardare. Nel corso dell’evento annuale dedicato agli sviluppatori, svoltosi il giorno successo al già citato spring update, Google ha presentato un’applicazione conversazionale che integra la tecnologia generativa di Gemini AI.

Amazon, attraverso la start-up AI Anthropic, fresca di un investimento da 4 miliardi di dollari, ha appena distribuito il chatbot Claude anche in Europa.

Sono inoltre sempre più insistenti i rumor che vogliono Apple e OpenAI vicini ad un accordo, finora smentito dalla CTO Mira Murati, per implementare le tecnologie GPT nei sistemi operativi del brand della mela morsicata. Ne sapremo probabilmente di più a giugno, nel corso del WDDC, l’evento annuale di Apple dedicato agli sviluppatori. La notizia non ha comunque sorpreso più di tanto la community tech, in quanto l’assistente vocale Siri attualmente installato sui sistemi di Apple non pare infatti essere all’altezza della concorrenza, al punto da necessitare un significativo rinnovamento. Nel frattempo, nel corso dello spring update, OpenAI ha ufficialmente annunciato l’arrivo di una versione di ChatGPT dedicata ai sistemi Mac.

Le opportunità non mancano, anche se alla prova dei fatti tali applicazioni sono risultate ancora decisamente acerbe, al punto da consigliare l’adozione in un contesto sperimentale, anziché direttamente in produzione. Tuttavia, tale scenario non esula da rischi in termini di sicurezza e privacy dei dati, ponendo ancora una volta l’evidenza della necessità di un senso di responsabilità, da parte delle aziende e dei privati cittadini, quando si sceglie di condividere la propria conoscenza con i modelli di AI pubblica.

Ecco GPT-4o: tutto quello che serve sapere sulla AI multimodale di OpenAI, e non solo… ultima modifica: 2024-05-16T00:29:16+02:00 da Francesco La Trofa

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui