LA GUIDA

Dati sintetici: cosa sono, come vengono creati, a cosa servono

Partecipa al dibattito

I dati sintetici abilitano nuovi impieghi dell’Intelligenza Artificiale e ne migliorano le performance. Sono essenziali quando l’accesso ai dati reali è problematico per ragioni di privacy, di costo o di qualità. Qui dettagli ed esempi

Pubblicato il 07 Dic 2022

Emanuele Villa

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Oltre ai dati reali esistono, e sono sempre più usati, i dati sintetici. Cosa sono? L’intelligenza artificiale rappresenta da anni una delle principali leve d’innovazione, nonché un trend tecnologico di primissimo piano. Le imprese adottano modelli di AI e Machine Learning per un’infinità di casi d’uso: dalla gestione della supply chain alla produzione, dal customer care ai processi della cyber security. Secondo la Computing Technology Industry Association (CompTIA) americana, il 91,5% delle aziende leader nei rispettivi mercati sta concretamente investendo in AI.

Il macrocosmo dell’Intelligenza Artificiale consta di svariate tecniche, il cui minimo comun denominatore è la necessità di validi dataset. Tuttavia, l’addestramento dei modelli di AI richiede non soltanto immensi volumi di dati, ma anche che abbiano un elevato livello qualitativo e che siano quelli giusti in funzione dell’analisi da svolgere. Ed è qui che emergono i problemi.

Nonostante il mantra della crescita esponenziale dei dati, in molti contesti non è per nulla semplice entrare in possesso di dataset con caratteristiche adeguate a livello di volume, qualità e utilità. Talvolta i dati non ci sono o sono insufficienti, ma più frequentemente non sono accessibili causa vincoli normativi (privacy) o non adeguati in termini di qualità. Dal punto di vista normativo, il problema del data access può essere risolto con specifiche autorizzazioni o con tecniche di anonimizzazione, mentre quello della data quality, più complesso a livello tecnico, può essere affrontato con pipeline di data cleansing che coinvolgono anche procedure manuali (es, il labeling dei dataset). In entrambi i casi, il combinato disposto di rischi, tempi e costi spinge le aziende verso un’altra strada ed è il motivo per cui buona parte delle potenzialità di AI è ancora inesplorata. La strada è quella dei dati sintetici.

Indice degli argomenti

Al via l’era dei synthetic data

Per definizione, un dato sintetico è un dato artificiale creato da dati reali e con le stesse proprietà statistiche. È, di fatto, un meccanismo ingegnoso che consente alle professionalità della data science di sfruttare tutto il potenziale delle tecniche di AI vincendo le relative sfide. Quando creano dati sintetici, le aziende si pongono l’obiettivo di ottenere enormi volumi di dati di qualità, il cui impiego analitico fornisca risultati del tutto analoghi all’utilizzo di dati reali.

La data synthesis consente dunque un accesso più rapido ai dati, in modo sicuro e a un costo inferiore, motivi più che sufficienti per veder moltiplicare le aziende, i prodotti e le piattaforme dedicate. Secondo Gartner, “entro il 2024, il 60% dei dati utilizzati per lo sviluppo di progetti di AI e di analisi sarà generato sinteticamente”.

I principali impieghi dei dati sintetici

L’impiego preferenziale dei dati sintetici è l’addestramento dei modelli di Intelligenza Artificiale. Vincoli di privacy a parte (si consideri l’universo healthcare), qui il tema principale è l’accelerazione dei tempi e la riduzione dei costi, poiché l’accesso a grandi volumi di dati reali richiede tempo ed è un processo estremamente laborioso. Mancanze ed errori, infatti, possono incidere sull’accuratezza (anche predittiva) del modello, con la conseguenza di indirizzare in modo errato decisioni strategiche di business. Connesso direttamente a quest’ambito è poi l’impiego dei dati sintetici per testare l’eventuale pregiudizio (bias) degli algoritmi di AI, che effettivamente è causato da vizi nei dati di training.

Molte aziende stanno inoltre adottando dati sintetici per migliorare l’eterogeneità dei propri dataset reali e per analisi esplorative, ovvero per dimostrare che tipo di risultati sia possibile ottenere attraverso i propri modelli. Di fronte a esiti particolarmente incoraggianti, i ricercatori/analisti possono intraprendere la strada tortuosa dei real data. Stesso discorso, infine, quando i dati storici – tradizionalmente impiegati per i modelli previsionali – non sono più indicativi del fenomeno in oggetto o quando i dati reali non sono ancora accessibili: in quest’ultimo caso, i dati sintetici vengono impiegati per un pre-training del modello, che di fatto accelera le operazioni successive e ne riduce il costo.

Come generare dati sintetici, non solo da quelli reali

Si è soliti distinguere i dati sintetici in due categorie: quelli generati a partire da dati reali e quelli che non lo sono. I primi rappresentano la stragrande maggioranza.

Creare un dato artificiale da una misura reale è il caso più logico e comune, ma è tutt’altro che semplice. Infatti, significa dover realizzare un modello in grado di comprendere la distribuzione e la struttura dei dati reali, cioè tutte le relazioni e le interazioni all’interno del dataset. Dopo di che, i dati sintetici vengono generati in funzione del modello stesso.

La seconda modalità di creazione non si basa su dati reali, e viene quindi adottata quando i dati non sono accessibili o non rappresentano al meglio il fenomeno che si intende analizzare. In tale caso, i dati sintetici sono realizzati tramite modelli già esistenti (statistici, simulazioni…) o attraverso la modellizzazione della conoscenza del fenomeno. L’esempio d’elezione è un modello in grado di descrivere (e prevedere) l’andamento dei mercati finanziari in funzione di regole presenti in testi accademici. In questo caso, è relativamente semplice realizzare il modello alla base dei dati sintetici, ma la sua efficacia dipende dal grado di conoscenza del fenomeno sottostante.

Impieghi concreti, dalla self driving car alla sanità

La rilevanza dei dati sintetici è in forte crescita e sono sempre più frequenti gli impieghi concreti nelle varie industry, a partire da quelle ricche di dati e, al tempo stesso, maggiormente regolamentate. Il mondo della finanza li adotta per prevedere l’andamento dei mercati, mentre nell’ambito della mobilità e dei trasporti, i dati sintetici sono alla base dei modelli di AI che alimentano le auto a guida autonoma.

Healthcare e Pharma sono casi a sé. Qui, infatti, esistono due forze contrapposte: l’esigenza di proteggere il dato e, contestualmente, quella di condividerlo al massimo per stimolare la ricerca, lo sviluppo di farmaci e di percorsi terapeutici innovativi. Trovare un equilibrio risulta complesso, poiché le tecniche di de-identificazione del dato finiscono per comprometterne l’utilità, a causa della regolamentazione molto rigida. Le aziende del settore stanno trovando una soluzione adeguata proprio nei dati sintetici, che garantiscono la capacità di descrivere i fenomeni sottostanti ma senza tutta la complessità e la sensibilità di quelli reali. La speranza in cure innovative e nel miglioramento delle condizioni di vita passa anche da qui.

Emanuele Villa

Appassionato di tecnologia da sempre, ho deciso che avrei impegnato il mio tempo raccontandola e lo faccio dal lontano 2000. Dopo un lungo percorso nel mondo della tecnologia consumer, ora mi occupo principalmente di Digital Transformation.