L’intelligenza artificiale (AI) sta avendo un impatto straordinario in tutti gli ambiti dell’industria digitale. Tra gli strumenti più dirompenti vanno senza dubbio segnalati gli AI Image Generator, capaci di introdurre un modo totalmente nuovo di concepire e realizzare i contenuti visivi, a partire da una semplice descrizione testuale di ciò che si intende ottenere.
La creazione delle immagini attraverso l’intelligenza artificiale generativa può abilitare innumerevoli opportunità di business, a patto di conoscere nel dettaglio le potenzialità e i limiti che attualmente caratterizzano questa affascinante tecnologia.
Gli AI Image Generator consentono di creare immagini realistiche e surreali di persone, oggetti e scenari che non esistono, oltre a modificare in maniera creativa le immagini esistenti per adattarle a nuovi concept. La semplicità d’uso e la velocità che li caratterizza li ha rapidamente diffusi nel mondo dell’arte, del design e del marketing di prodotto, dove si assiste ad una ampia sperimentazione e ad alcuni casi degni di nota anche nelle pipeline di produzione.
Cosa sono gli AI Image Generator
Un AI Image Generator è un sistema di intelligenza artificiale progettato nello specifico per creare nuove immagini sulla base di parametri e condizioni di input definite dall’utente. Tali sistemi fanno ampio uso di tecniche di machine learning (ML) e deep learning (DL) e vengono generalmente sottoposti ad un processo di training sulla base di data set di grandi dimensioni, comprendenti immagini tematiche di cui riconoscono lo stile e la tipologia di contenuti.
In termini pratici, la caratteristica che distingue gli AI Image Generator è la capacità di creare contenuti visivi senza l’intervento diretto dell’uomo sul risultato finale, il che consente di automatizzare il processo creativo, riducendo sensibilmente il time-to-market in molti ambiti dell’industria, soprattutto per quanto concerne le prime fasi del ciclo di vita, quelle tipicamente concettuali.
Gli attuali AI Image Generator non possono gestire il confezionamento dell’immagine a livello esecutivo, ma si rivelano utilissimi per il draft delle proposte concettuali, producendo nel giro di pochi secondi una serie di contenuti che nei workflow tradizionali richiederebbero ore, se non giornate di lavoro.
Come vedremo, esistono vari tipi di AI image generator, ciascuno caratterizzato da pro e contro. Conoscere la tecnologia alla base del loro funzionamento può consentire di scegliere più facilmente la soluzione più adatta a soddisfare le proprie esigenze creative.
LEGGI ANCHE: Generative AI: perché le aziende dovrebbero conoscerla e implementarla
La breve storia della AI generation art
I primi tentativi di AI Image Generation risalgono agli anni Sessanta, ma soltanto nel decennio successivo, in particolare dal 1973, ritroviamo il primo esempio degno di nota: il sistema AI Aaron, sviluppato da Harold Cohen. Si trattava di un primordiale assistente AI in grado di realizzare disegni in bianco e nero basati su simboli.
Al di là dei tentativi pionieristici, che non sono mai riusciti ad andare oltre l’ambito episodico, la AI image generation di moderna concezione, come la intendiamo oggi, arriva nel 2014 con la pubblicazione della prima GAN (generative adversarial network), ad opera del ricercatore Ian Goodfellow, all’epoca in forza a Google. Al colosso di Mountain View si deve anche la prima rete neurale convoluzionale (CNN) utilizzata per la generazione delle immagini: DeepDream (2015).
Nel 2018 fa il suo ingresso sulla scena Ganbreeder, ora noto come Artbreeder, uno dei tool attualmente più diffusi, che basa il proprio funzionamento su una GAN.
A rendere davvero mainstream questa tecnologia ci ha pensato OpenAI, che nel 2021 ha distribuito la prima versione pubblica di Dall-E, un servizio online basato su una GAN, che attraverso una semplice interfaccia testuale (prompt) consentiva anche ai non addetti ai lavori di creare immagini di qualità, strettamente pertinenti al contesto descritto.
L’anno successivo vengono rilasciati altri due strumenti online text-to-image basati sulla AI: Google Imagen e Stable Diffusion, un progetto open source coordinato da Stability AI, mentre nel 2023 Adobe, punto di riferimento nell’industria dell’image e video editing, ha rilasciato la prima versione di Firefly, un tool generativo basato su una GAN, direttamente integrato in Photoshop, Premiere ed altri software che compongono i vari verticali di offerta.
Come funziona un AI Image Generator
Attualmente esistono varie tecniche di intelligenza artificiale generativa che consentono di creare immagini a partire da una richiesta via prompt. Tuttavia, è possibile generalizzare in via schematica il funzionamento degli AI image generator, attraverso le seguenti fasi:
- Analisi del prompt: il sistema AI analizza la richiesta testuale dell’utente e cerca di identificare gli elementi chiave in relazione a oggetti, scenari, tono ed altri particolari di dettaglio.
- Interpretazione semantica: l’impiego di tecniche NLP (natural language processing) consente al sistema di comprendere nel dettaglio il significato del prompt, associando le parole ai concetti.
- Concettualizzazione visiva: il sistema AI traduce l’informazione semantica in un primo risultato visuale, sulla base delle immagini con cui è stato effettuato il processo di training, che caratterizza la knoweledge base a cui fa riferimento. In questa fase intervengono elementi creativi come la composizione, il lighting e la prospettiva.
- Sintesi dell’immagine: le GAN e altre tecniche di deep learning consentono ai sistemi AI di sintetizzare tutti gli elementi della concettualizzazione visiva in un’unica immagine coerente, il cui esito può essere progressivamente migliorato attraverso ulteriori richieste via prompt.
- Post produzione: oltre ad affinare progressivamente la qualità e la pertinenza dell’immagine, i sistemi AI rifiniscono il risultato attraverso l’impiego di varie tecniche di post produzione, tipiche dell’image editing, compreso lo style transfer.
Quali tecniche di intelligenza artificiale utilizzano
Il processo di creazione dell’immagine descritto nel precedente paragrafo viene ottenuto mediante una notevole varietà tecnologica, che fa ricorso a diversi modelli AI. Tra i più diffusi ritroviamo:
- GAN (generative adversarial network): prevede l’utilizzo di almeno due reti neurali concorrenti, che vengono utilizzate per creare e perfezionare progressivamente il risultato ottenuto.
- CNN (reti neurali convoluzionali): modelli di deep learning capaci di identificare gli oggetti e utilizzare la conoscenza ottenuta per creare nuove immagini.
- RNN (reti neurali ricorrenti): modelli di deep learning che utilizzano un output quale input della successiva iterazione. Vengono utilizzate per la creazione di vari contenuti multimediali, audio e video.
- NST (neural style transfer): i sistemi NST vengono solitamente utilizzati insieme alle CNN, per adattare lo stile di un’immagine ad una nuova creazione. Gli strumenti che integrano funzionalità di style transfer possono ad esempio analizzare l’immagine fornita da un utente (es. Una fotografia di paesaggio) e reinterpretarla con lo stile del Canaletto, Degas, Dalì ed altri grandi artisti dell’arte classica e contemporanea.
L’impatto sul business
Gli AI image generator stanno avendo un grande impatto nell’industria creativa, grazie alla loro capacità di accelerare la generazione di nuovi contenuti visuali, automatizzando e riducendo sensibilmente i tempi e i costi di sviluppo, soprattutto nelle prime fasi del processo creativo, che consiste nella realizzazione dei concept e dei prototipi.
Dopo aver avuto un buon riscontro nell’ambito dell’industria entertainment, gli AI image generator hanno iniziato a diffondersi anche nel contesto enterprise, grazie alla capacità di supportare con successo le seguenti funzioni:
- Creazione contenuti multimediali
- Storytelling
- Design (rendering di prodotto)
- Educazione e Training
- Personalizzazione dei prodotti
- Contenuti inclusivi
- Marketing e Advertising
- Data Visualization
- Contenuti immersivi (per applicazioni AR e VR)
Attualmente esistono decine di AI image generator, tra soluzioni commerciali closed source e progetti open source. Si tratta di strumenti che si concentrano molto spesso su un ambito specifico della produzione, per seguire la domanda dei vari verticali dell’industria.
Tra gli AI image generator più diffusi attualmente ritroviamo Stable Diffusion, Craiyon, Midjourney, Artbreeder e Dall-E, il più popolare di tutti. Creato e distribuito da OpenAI, Dall-E è una tecnologia che oggi integra assistenti AI multimodali come ChatGPT e Microsoft Copilot, per quanto riguarda la creazione dei contenuti visivi.
Le criticità da affrontare
Quando si valuta l’implementazione di un AI image generator nei processi aziendali è opportuno essere consapevoli di alcune attuali limitazioni sul piano tecnologico e di evidenti criticità sul piano dell’etica e della responsabilità di utilizzo, peraltro comuni alla maggioranza delle applicazioni basate sulle AI.
Dal punto di vista tecnologico, le applicazioni attuali sono molto valide nella creazione in tempi contenuti di nuove immagini, il che rende gli AI image generator molto indicati per le fasi di concept che caratterizza il design di un prodotto. I prompt consentono di perfezionare iterativamente il risultato di un’immagine, ma non consentono di avere il controllo di dettaglio che viene richiesto in fase esecutiva.
In produzione è pertanto auspicabile un utilizzo combinato di strumenti di AI generativa con soluzioni di rendering 3D tradizionali, capaci di assicurare un elevato livello di controllo nelle modifiche necessarie per raggiungere l’immagine desiderata. La generative AI è in grado di accelerare e semplificare notevolmente le fasi di post produzione.
Sul piano delle responsabilità, la AI image generation implica la valutazione dei seguenti aspetti:
- Paternità: nel caso di un’immagine creata da un sistema AI sulla base della descrizione fornita da un utente, di chi è la paternità a livello intellettuale? Il contributo dei sistemi di AI generativa si spinge ben oltre rispetto ai tradizionali strumenti di computer grafica. Il dibattito è tuttora aperto, ma appare evidente una co-responsabilità, come del resto sancito dal recente AI Act, che definisce nel dettaglio gli ambiti di responsabilità legale dell’utente finale e dello sviluppatore del sistema AI
- Copyright: un nodo problematico è costituito dai dati utilizzati per il training dei modelli AI. In molti casi, tali risorse non sono di pubblico dominio, ma interessate da un diritto d’autore che non ne consente il libero impiego in ambito commerciale. Un caso esemplare è costituito dalla causa istituita da Getty Images nei confronti di Stable Diffusion, che avrebbe utilizzato il celebre image repository per addestrare senza esplicito consenso il suo modello AI.
- Bias: I modelli AI generano risultati coerenti con i dati analizzati durante la fase di training. I sistemi di AI generativa non fanno eccezione. È pertanto fondamentale assicurare un’adeguata data quality a livello tecnico, e un utilizzo responsabile per scongiurare fenomeni discriminatori e risultati problematici a livello di inclusione e rispetto dei diritti fondamentali dell’uomo. Questi aspetti rendono imprescindibile la supervisione umana per i progetti che utilizzano le tecniche di generative AI per la creazione dei contenuti visivi.