L’intelligenza artificiale generativa e i dati sintetici stanno cambiando il modo in cui si fa ricerca clinica. Train e NTT DATA propongono un modello integrato per rendere i trial più sostenibili, inclusivi e precisi. Tra privacy, validazione e digital twin, prende forma una nuova medicina, più accessibile e personalizzata.

La medicina contemporanea è chiamata a confrontarsi con sfide crescenti in termini di sostenibilità, tempi di sviluppo e accesso ai dati clinici. In questo scenario, l’AI generativa sta offrendo nuove possibilità per supportare la ricerca, in particolare attraverso la creazione di dati sintetici: informazioni generate artificialmente a partire da dati reali, che ne mantengono le proprietà statistiche e cliniche, ma non contengono riferimenti a singoli individui.

Grazie a queste caratteristiche, i dati sintetici possono essere utilizzati per addestrare modelli, testare algoritmi e simulare scenari clinici, strumenti sempre più rilevante per il mondo della ricerca medica e farmaceutica, soprattutto nei contesti in cui l’accesso a dati reali risulta complesso, limitato o eticamente problematico.

Ed è qui che entrano in gioco realtà come NTT DATA e Train, che su queste tematiche hanno scelto di lavorare con obiettivi chiari, precisi e, soprattutto, realistici. 
Train è uno spin-out dell’IRCCS Istituto Clinico Humanitas, nato per trasferire nella pratica clinica le competenze sviluppate nella ricerca sull’intelligenza artificiale. Specializzata in AI generativa e dati sintetici, Train sviluppa modelli e framework validati per supportare la ricerca medica, la sperimentazione clinica e la medicina personalizzata.
Dal canto suo, NTT DATA, in questo contesto, si è occupata di fornire l’infrastruttura tecnologica necessaria per integrare i modelli di AI Generativa nei sistemi sanitari e farmaceutici, garantendo compliance, trasparenza e adozione efficace delle soluzioni AI.

Insieme le due realtà hanno avviato uno studio, sintetizzato nel report dal titolo “Generative AI and synthetic data for clinical application”, con l’obiettivo di esplorare il ruolo dell’AI generativa nell’ambito sanitario, analizzando applicazioni, vantaggi e implicazioni regolatorie, con un focus specifico sui trial clinici, in particolare nel trattamento delle malattie rare.

LEGGI ANCHE: Le cinque tecnologie che trasformeranno il business secondo NTT DATA Technology Foresight 2025

Più accesso ai dati, maggiore protezione della privacy

Uno degli aspetti centrali dell’uso di dati sintetici è la possibilità di disporre di grandi quantità di dati clinici senza esporre direttamente le informazioni personali dei pazienti. Come spiegato nel report, i dati sintetici sono progettati per replicare le strutture e le relazioni presenti nei dati reali, mantenendone la coerenza statistica e clinica, ma rimuovendo qualsiasi elemento che permetta l’identificazione del singolo paziente o partecipante allo studio.

Questa caratteristica li rende particolarmente adatti all’addestramento di algoritmi di machine learning, alla validazione di modelli predittivi e alla simulazione di scenari sperimentali, compresi quelli legati alla sperimentazione di nuovi farmaci. In particolare, sono utili nei contesti in cui è difficile o impossibile raccogliere dati reali a causa di vincoli etici, normativi o logistici.

Un ulteriore vantaggio dei dati sintetici è la loro “plasticità”: possono essere generati per compensare squilibri nei dataset originali, migliorando la rappresentatività dei campioni. Questo si rivela cruciale, ad esempio, quando i dati raccolti risultano sbilanciati per genere, età o condizioni cliniche.

Malattie rare: quando i dati sintetici diventano una risorsa necessaria

Matteo Della Porta

Un ambito in cui il ricorso ai dati sintetici può fare la differenza è quello delle malattie rare. La scarsità di pazienti, la complessità delle diagnosi e la difficoltà di allestire trial clinici sufficientemente robusti rendono spesso problematica la raccolta di dati reali. In questo contesto, la generazione di pazienti sintetici permette di ampliare i dataset disponibili e migliorare la progettazione degli studi.

Matteo Della Porta, direttore scientifico di Train, sottolinea: “Uno degli ostacoli principali alla sperimentazione clinica in ambito oncologico è l’impossibilità etica di assegnare un paziente a un trattamento standard poco efficace. In questi casi, un braccio di controllo sintetico permette di ottenere dati comparativi affidabili senza penalizzare i pazienti reali.”

Questo approccio è stato testato da Train in uno studio sulla mielodisplasia, in cui l’utilizzo di un gruppo di controllo completamente sintetico ha prodotto risultati sovrapponibili a quelli di uno studio tradizionale, a dimostrazione della robustezza del metodo. Risultati simili sono stati osservati anche in ambito neurologico, nella sclerosi multipla, e in progetti pilota in chirurgia, sempre con l’obiettivo di affinare il disegno sperimentale.

“Non vogliamo creare un paziente che non esiste”, precisa Della Porta, “ma amplificare ciò che nei dati reali già è presente, rendendolo più leggibile, più accessibile e, soprattutto, più utilizzabile.”

La validazione del dato sintetico resta cruciale per evitare il rischio che, attraverso elaborazioni successive, si arrivi a una distorsione eccessiva dell’informazione originale. Come ha spiegato Saverio D’Amico, CEO di Train, “non si tratta di fare la fotocopia della fotocopia della fotocopia. L’obiettivo non è mai sostituire il dato reale, ma affiancarlo dove serve, con un livello di fedeltà e trasparenza misurabile.”

Una piattaforma tecnologica a supporto della trasformazione

Per rendere possibile l’adozione dei dati sintetici nei contesti regolamentati dell’healthcare è necessario disporre di un’infrastruttura tecnologica solida, scalabile e conforme alle normative. È qui che entra in gioco NTT DATA, che fornisce la piattaforma IT in grado di integrare i modelli generativi di Train nei sistemi esistenti delle organizzazioni sanitarie e farmaceutiche.

Emanuele Corbetta

“Il nostro obiettivo è rendere questa transizione fluida e sicura – spiega Emanuele Corbetta, responsabile Life Sciences di NTT DATA Italiagarantendo la trasparenza dei processi, la spiegabilità dei modelli e la conformità alle normative di settore, incluse le più recenti indicazioni su AI e dispositivi medici.” Il tema della “AI explainability” – cioè la possibilità di rendere comprensibili e verificabili le decisioni algoritmiche – è oggi una condizione necessaria per ottenere fiducia da parte di clinici, aziende e organismi regolatori.
Ma non basta.
NTT Data  mette a disposizione team dedicati alla compliance GxP e alla validazione dei sistemi IT, secondo le linee guida internazionali, come le “Good Machine Learning Practices” co-pubblicate da FDA e altri enti di regolazione. 
Ricordiamo che la compliance GxP si riferisce per l’appunto all’insieme di normative e linee guida che regolano la buona pratica (Good Practice) nei settori farmaceutico, biotecnologico e sanitario. La “G” sta per “Good” e la “x” è un segnaposto che varia a seconda del contesto, ad esempio:

  • GMP – Good Manufacturing Practice (buone pratiche di produzione)
  • GLP – Good Laboratory Practice (buone pratiche di laboratorio)
  • GCP – Good Clinical Practice (buone pratiche cliniche)

Essere compliant con le norme GxP significa garantire che i processi, i sistemi e i dati relativi a prodotti e studi siano tracciabili, affidabili, sicuri e conformi alle normative internazionali, soprattutto in ambito regolatorio e di qualità.

Nel contesto dell’AI applicata alla sanità, la compliance GxP è fondamentale per assicurare che gli algoritmi, i dati sintetici e le piattaforme utilizzate rispettino questi standard, e possano essere accettati dagli enti regolatori come l’EMA o la FDA.

Il framework SAFE: validazione e trasparenza

Saverio D’Amico

Un altro elemento cruciale è la validazione dei dati sintetici generati. Per questo Train ha sviluppato un framework chiamato SAFE (Synthetic vAlidation FramEwork), che verifica ogni dato secondo tre dimensioni: coerenza statistica, fedeltà clinica e protezione della privacy.

Saverio D’Amico, CEO di Train, spiega: “SAFE non si limita a valutare la qualità del dato. È in grado anche di suggerire, nel caso di una bassa coerenza, quali miglioramenti sono necessari. Questo permette un utilizzo consapevole dei dati sintetici, adattato al tipo di applicazione: ricerca, progettazione di trial, ottimizzazione dei flussi clinici.”

“Se i dati reali di partenza sono sbilanciati – prosegue – SAFE ci aiuta a correggere i bias. Ad esempio, se in un trial ci sono 99 donne e un uomo, possiamo generare dati sintetici per riequilibrare la rappresentazione, mantenendo la fedeltà clinica.”

Il framework, ispirato anche dalle linee guida dell’OMS del 2021 sull’uso responsabile dell’AI generativa in medicina, include strumenti statistici tradizionali, facilmente interpretabili dai medici. Questo approccio garantisce che anche le agenzie regolatorie possano valutare la qualità del dato sintetico, senza dover interpretare “scatole nere” algoritmiche.

Un’opportunità per pazienti e ricercatori

L’utilizzo di dati sintetici non mira a sostituire i trial clinici tradizionali, ma a renderli più efficienti, inclusivi e sostenibili. Il loro impiego nei bracci di controllo permette di ridurre il numero di pazienti reali da arruolare, accelerando i tempi degli studi e riducendone i costi.

“Un paziente anziano, fragile, con comorbidità, ha difficoltà a partecipare a studi clinici complessi”, ha spiegato Della Porta. “Spesso, per partecipare al braccio di controllo, è costretto a raddoppiare le visite, gli esami, gli spostamenti. E tutto questo per ricevere una terapia che è già standard.”

“In questi casi – aggiunge – un braccio sintetico non è solo un vantaggio per lo studio, ma una forma di rispetto per il paziente.”

D’Amico aggiunge un’altra riflessione: “Il dato sintetico è anche uno strumento di sostenibilità. Permette di raccogliere meno dati reali, ridurre il numero di pazienti necessari, e portare prima sul mercato farmaci potenzialmente salvavita.”

Nuove prospettive: digital twin, referti, medicina di precisione

Oltre ai trial, le applicazioni dell’AI Generativa si stanno estendendo alla medicina di precisione. Grazie ai digital twin – modelli virtuali che rappresentano un singolo paziente – è possibile simulare la progressione di una malattia, testare virtualmente scenari terapeutici e supportare le decisioni cliniche.

“Stiamo già utilizzando queste tecnologie per assistere i medici nella stesura dei referti – afferma D’Amico – trascrivendo in tempo reale il colloquio medico-paziente e strutturando le informazioni in modo utile per l’analisi clinica.”

Anche nel contesto della scoperta di nuovi farmaci, i dati sintetici possono essere impiegati per esplorare nuovi target, testare ipotesi, simulare risposte. La combinazione con tecnologie RAG (retrieval-augmented generation) e LLM (large language model) apre prospettive innovative nella costruzione di conoscenza clinica strutturata.

Corbetta conclude: “La nostra ambizione è contribuire a una medicina più equa, veloce e informata. Abbiamo validato le tecnologie, costruito una piattaforma robusta, collaborato con i clinici. Ora serve il passo successivo: portare tutto questo nella pratica quotidiana, con il coraggio di innovare.”

LEGGI ANCHE: AI Generativa: perché le aziende dovrebbero conoscerla e implementarla

AI generativa e dati sintetici: come cambia la ricerca clinica ultima modifica: 2025-04-02T17:26:26+02:00 da Miti Della Mura

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui