Per generare i loro contenuti, i software di AI generativa vengono addestrati con enormi quantità di dati e sono ormai in grado di acquisirli in rete in tempo reale. Ma cosa succede quando i dati coinvolti sono protetti da copyright? Attualmente chi tutela i legittimi proprietari in questa ennesima zona grigia a livello legale e normativo?
È la risposta che si attende di ricevere il New York Times, che negli ultimi giorni del 2023 ha denunciato OpenAI e Microsoft, accusandole di aver utilizzato i suoi contenuti per il training dei sistemi di AI generativa e dei LLMs (large language models), indicando come il materiale protetto da copyright potrebbe valere diversi miliardi di dollari in termini di risarcimento.
LEGGI ANCHE: Generative AI: perché le aziende dovrebbero conoscerla e implementarla
AI Generativa, l’accusa di violazione del copyright a OpenAI e Microsoft
ll New York Times ha depositato una causa per violazione del copyright presso un tribunale federale di Manhattan, sostenendo che i propri contenuti siano stati utilizzati per generare prodotti sostitutivi, senza aver ricevuto alcun permesso o indennizzo da parte degli accusati.
Oltre al fattore economico, pesano gli aspetti di carattere etico e deontologico. I legali del New York Times hanno infatti precisato come l’utilizzo illegale dei materiali prodotti dalle indagini della testata giornalistica mettono seriamente a repentaglio il proseguimento della sua attività, rischiando di pregiudicare un rischio per l’informazione democratica, sostenendo come il giornalismo indipendente del NYT costituisca una risorsa “sempre più rara e preziosa”.
Il NYT ha scelto di procedere per vie legali dopo non essere riuscito ad ottenere un accordo con OpenAI e Microsoft in merito all’utilizzo dei propri materiali protetti da copyright, con argomenti che riguardavano anche i presunti guardrail, i limiti che le applicazioni di AI generativa dovrebbero implementare per soddisfare requisiti di carattere etico.
Un ulteriore problema, citato nel testo della denuncia, è dato dai contenuti generati dai sistemi AI, che secondo i legali del NYT sarebbero condizionati da gravi errori di attribuzione delle fonti, in grado di generare un notevole danno reputazionale. Sul banco degli imputati questa volta salirebbe Bing Chat, il chatbot AI integrato in Microsoft Edge ed utilizzato dallo stesso ChatGPT per le ricerche dei contenuti su Internet.
La querela del New York Times non è certamente l’unica nel suo genere, in quanto moltissimi autori ed editori in tutto il mondo hanno già avviato iniziative per cercare di far valere i loro diritti contro l’utilizzo dei loro contenuti protetti da copyright durante il training dei sistemi AI.
Lo stesso problema riguarda le banche dati di materiale grafico e fotografico, come Getty Images, che a sua volta ha intrapreso iniziative legali nei confronti di Stability, accusandola di aver utilizzato senza alcuna licenza milioni di immagini protette copyright per il training di Stable Diffusion.
Proprio nelle ore in cui scriviamo è arrivata la notizia che Getty Images e NVIDIA hanno deciso di lanciare il nuovo servizio Generative AI by iStock, un AI generator accessibile e legalmente sicuro per la creazione di contenuti visivi originali. Basato sulla tecnologia di NVIDIA Picasso, il servizio di propone di generare immagini basate sulla libreria di iStockPowered, ovviando i problemi di copyright grazie da una garanzia legale di 10mila dollari inclusa nell’utilizzo della piattaforma. Questa collaborazione mira dichiaratamente a democratizzare l’utilizzo della generative AI nell’ambito del visual storytelling.
In ambito musicale è opportuno ricordare la denuncia di numerose etichette nei confronti di Anthropic, la company di Amazon che sviluppa il chatbot Claude, accusata di aver utilizzato una “innumerevole quantità” di testi di canzoni, legalmente protetti da copyright, per il training dei sistemi AI.
Se inizialmente il contributo di software come ChatGPT appariva marginale in termini di produzione mainstream, l’improvvisa impennata di popolarità dei sistemi di AI generativa ha fatto scattare il campanello d’allarme nel mercato dell’informazione, che si sente pienamente minacciato da qualcosa che appare di fatto incontrollabile nella sua diffusione. Per rendere l’idea, il solo ChatGPT viaggia a ritmi da 100 milioni di nuovi utenti alla settimana.
Le reazioni di OpenAI e Microsoft
Mentre Microsoft non si è esposta in maniera diretta, OpenAI ha preso prontamente posizione nei confronti delle accuse rivolte dal New York Times, cercando di mitigare le pressioni relative all’utilizzo di contenuti protetti dal copyright per il training dei propri sistemi AI.
A scanso di equivoci, OpenAI ha affermato di non poter addestrare modelli linguistici di grandi dimensioni come GPT-4 senza accedere a opere protette da copyright. Ma questo non equivale, secondo la società diretta dal rientrante Sam Altman, ad un’ammissione di colpa. Secondo quanto riportato da The Telegraph, OpenAI ha ufficialmente dichiarato che: “Poiché il copyright oggi copre praticamente ogni tipo di espressione umana, inclusi post di blog, fotografie, post di forum, frammenti di codice software e documenti governativi, sarebbe impossibile addestrare i principali modelli di intelligenza artificiale di oggi senza utilizzare materiali protetti da copyright“.
In altri termini, i soli materiali i cui diritti d’autore sarebbero decaduti nel tempo non sarebbero, secondo OpenAI, sufficienti per raggiungere gli obiettivi oggi attesi dall’intelligenza artificiale: “Limitare i dati di addestramento a libri e disegni di pubblico dominio creati più di un secolo fa potrebbe produrre un esperimento interessante, ma non fornirebbe sistemi di intelligenza artificiale che soddisfino le esigenze dei cittadini di oggi“.
Secondo l’AI lab finanziato da Microsoft, i materiali protetti da copyright sarebbero dunque indispensabili per soddisfare una questione di progresso tecnologico, rigettando a pieno titolo le accuse rivolte dal New York Times. Direttamente dal sito ufficiale di OpenAI, si apprende infatti che: “Sosteniamo il giornalismo, collaboriamo con le organizzazioni giornalistiche e riteniamo che la causa del New York Times sia priva di merito“.
Dopo l’esplosione della questione relativa all’utilizzo di materiali protetti da copyright utilizzati per il training di ChatGPT, OpenAI ha intrapreso numerose trattative per raggiungere accordi nero su bianco. Se con il NYT, in attesa degli sviluppi legali, la vicenda non ha finora avuto un esito felice, nel caso di altri editori, come il tedesco Springer, è stata nel frattempo raggiunta un’intesa annunciata con soddisfazione da entrambe le parti.
OpenAI sostiene che l’accordo con il colosso editoriale tedesco contribuirà ad “Arricchire l’esperienza degli utenti con ChatGPT aggiungendo contenuti recenti e autorevoli su un’ampia varietà di argomenti e apprezza esplicitamente il ruolo dell’editore nel contribuire ai prodotti di OpenAI […] Questa partnership consente agli utenti di ChatGPT di ricevere riepiloghi di contenuti di notizie selezionati dai media del gruppo Axel Springer […] Le informazioni includeranno l’attribuzione delle fonti e i collegamenti agli articoli completi, per offrire trasparenza e possibilità di approfondimento“.
Secondo Mathias Döpfner, CEO del gruppo editoriale Axel Springer: “Vogliamo esplorare le opportunità del giornalismo potenziato dall’intelligenza artificiale, per portare la qualità, la rilevanza sociale e il modello di business del giornalismo a un livello superiore“.
In altre occasioni, OpenAI aveva affermato di rispettare i diritti d’autore, basando la propria difesa sulla dottrina legale del “fair use”, che consente l’uso di contenuti in determinate circostanze senza chiedere il permesso del proprietario o il possesso di una licenza, come avviene nel caso della formazione, ricollegando questo aspetto al training dei sistemi AI. Sarà davvero interessante vedere come si esprimeranno in merito i tribunali interessati.
Le prime sentenze forniranno indicazioni utili per comprendere il sentore generale, anche se chi intende puntare concretamente sulla AI generativa non si attende semplici episodi, ma chiede regole chiare per tutelare i propri investimenti.
L’incertezza legale costituisce da un lato una barriera di adozione per l’innovazione dell’AI generativa, dall’altra minaccia la sopravvivenza stessa di chi produce i contenuti di informazione, che rischiano di vedersi crollare sotto i piedi il terreno su cui hanno costruito per anni il loro business. Il compito dei legislatori a livello globale, in un contesto in cui è persino complesso definire la giurisdizione dei casi, si presenta più che mai arduo.
LEGGI ANCHE: AI generativa: un’opportunità da oltre 150 miliardi di dollari.