La scorsa settimana, il miliardario e proprietario di X, Elon Musk, ha affermato che la quantità di dati generati dall'uomo utilizzata per addestrare modelli di intelligenza artificiale (IA) come ChatGPT è esaurita.
Musk non ha citato prove a sostegno di questa affermazione. Ma altri importanti esponenti del settore tecnologico hanno fatto affermazioni simili negli ultimi mesi. E ricerche precedenti indicavano che i dati generati dall'uomo si sarebbero esauriti entro due-otto anni.
Ciò è dovuto in gran parte al fatto che gli esseri umani non sono in grado di creare nuovi dati, come testo, video e immagini, con una velocità sufficiente a soddisfare le richieste rapide ed enormi dei modelli di intelligenza artificiale. Quando i dati autentici si esauriranno, ciò rappresenterà un problema importante sia per gli sviluppatori che per gli utenti dell'intelligenza artificiale.
Ciò costringerà le aziende tecnologiche a fare maggiore affidamento sui dati generati dall'intelligenza artificiale, noti come "dati sintetici". Questo, a sua volta, potrebbe rendere i sistemi di intelligenza artificiale attualmente utilizzati da centinaia di milioni di persone meno accurati e affidabili, e quindi meno utili.
Ma questo non è un risultato inevitabile. Anzi, se utilizzati e gestiti con attenzione, i dati sintetici potrebbero migliorare i modelli di intelligenza artificiale.

I problemi con i dati reali
Le aziende tecnologiche dipendono dai dati, reali o sintetici, per costruire, addestrare e perfezionare modelli di intelligenza artificiale generativa come ChatGPT. La qualità di questi dati è fondamentale. Dati scadenti portano a risultati scadenti, proprio come l'utilizzo di ingredienti di bassa qualità in cucina può produrre pasti di scarsa qualità.
I dati reali sono testi, video e immagini creati da esseri umani. Le aziende li raccolgono attraverso metodi come sondaggi, esperimenti, osservazioni o analisi di siti web e social media.
I dati reali sono generalmente considerati preziosi perché includono eventi reali e catturano un'ampia gamma di scenari e contesti. Tuttavia, non sono perfetti.
Ad esempio, può contenere errori di ortografia e contenuti incoerenti o irrilevanti . Può anche essere fortemente distorto , il che può, ad esempio, portare i modelli di intelligenza artificiale generativa a creare immagini che mostrano solo uomini o persone di razza bianca in determinati lavori.
Anche questo tipo di dati richiede molto tempo e impegno per essere preparato. Innanzitutto, le persone raccolgono i set di dati, prima di etichettarli per renderli significativi per un modello di intelligenza artificiale. Successivamente, esaminano e puliscono questi dati per risolvere eventuali incongruenze, prima che i computer li filtrino, organizzino e convalidino.
Questo processo può richiedere fino all'80% del tempo totale investito nello sviluppo di un sistema di intelligenza artificiale.
Ma come detto sopra, i dati reali scarseggiano sempre di più perché gli esseri umani non riescono a produrli abbastanza velocemente da soddisfare la crescente domanda di intelligenza artificiale.
L'ascesa dei dati sintetici
I dati sintetici vengono creati o generati artificialmente da algoritmi , come il testo generato da ChatGPT o un'immagine generata da DALL-E .
In teoria, i dati sintetici offrono una soluzione più rapida ed economica per l'addestramento dei modelli di intelligenza artificiale.
Affronta inoltre questioni etiche e di privacy, in particolare per quanto riguarda informazioni personali sensibili come i dati sanitari.
È importante sottolineare che, a differenza dei dati reali, non sono rari. Anzi, sono illimitati.
Da qui in poi, i suoi unici dati sintetici.
— Rohan Paul (@rohanpaul_ai) 9 gennaio 2025
"La somma cumulativa della conoscenza umana è stata esaurita nell'addestramento dell'intelligenza artificiale. Questo è successo, in pratica, l'anno scorso."
– Elon pic.twitter.com/rdPzCbvdLv
Le sfide dei dati sintetici
Per questi motivi, le aziende tecnologiche si affidano sempre più ai dati sintetici per addestrare i propri sistemi di intelligenza artificiale. La società di ricerca Gartner stima che entro il 2030 i dati sintetici diventeranno la principale forma di dati utilizzata nell'intelligenza artificiale.
Ma sebbene i dati sintetici offrano soluzioni promettenti, non sono esenti da sfide.
Una delle principali preoccupazioni è che i modelli di intelligenza artificiale possano "collassare" quando si affidano eccessivamente a dati sintetici. Ciò significa che iniziano a generare così tante "allucinazioni" – una risposta che contiene informazioni false – e peggiorano così tanto in termini di qualità e prestazioni da risultare inutilizzabili.
Ad esempio, i modelli di intelligenza artificiale hanno già difficoltà a scrivere correttamente alcune parole. Se questi dati pieni di errori vengono utilizzati per addestrare altri modelli, anche questi sono destinati a replicare gli stessi errori.
I dati sintetici comportano anche il rischio di essere eccessivamente semplicistici . Potrebbero essere privi delle sfumature e della diversità presenti nei set di dati reali, il che potrebbe far sì che anche l'output dei modelli di intelligenza artificiale addestrati su di essi risulti eccessivamente semplicistico e meno utile.
Creazione di sistemi robusti per mantenere l'intelligenza artificiale accurata e affidabile
Per affrontare queste problematiche, è essenziale che organismi e organizzazioni internazionali come l' Organizzazione internazionale per la normazione o l' Unione internazionale delle telecomunicazioni introducano sistemi solidi per il monitoraggio e la convalida dei dati di addestramento dell'intelligenza artificiale e garantiscano che tali sistemi possano essere implementati a livello globale.
I sistemi di intelligenza artificiale possono essere equipaggiati per tracciare i metadati, consentendo agli utenti o ai sistemi di tracciare l'origine e la qualità di qualsiasi dato sintetico su cui sono stati addestrati. Ciò completerebbe un sistema di tracciamento e convalida standardizzato a livello globale.
Gli esseri umani devono inoltre mantenere la supervisione dei dati sintetici durante l'intero processo di addestramento di un modello di intelligenza artificiale per garantirne l'elevata qualità. Questa supervisione dovrebbe includere la definizione degli obiettivi, la convalida della qualità dei dati, la garanzia del rispetto degli standard etici e il monitoraggio delle prestazioni del modello di intelligenza artificiale.
Per ironia della sorte, gli algoritmi di intelligenza artificiale possono anche svolgere un ruolo nella verifica e nell'audit dei dati, garantendo l'accuratezza degli output generati dall'intelligenza artificiale da altri modelli. Ad esempio, questi algoritmi possono confrontare dati sintetici con dati reali per identificare eventuali errori o discrepanze, garantendo così la coerenza e l'accuratezza dei dati. In questo modo, i dati sintetici potrebbero portare a modelli di intelligenza artificiale migliori.
Il futuro dell'intelligenza artificiale dipende da dati di alta qualità . I dati sintetici svolgeranno un ruolo sempre più importante nel superare la carenza di dati.
Tuttavia, il loro utilizzo deve essere gestito con attenzione per mantenere la trasparenza, ridurre gli errori e preservare la privacy, garantendo che i dati sintetici servano da affidabile integrazione ai dati reali, mantenendo i sistemi di intelligenza artificiale accurati e affidabili.
James Jin Kang, docente di Informatica presso la RMIT University in Vietnam .
Questo articolo è ripubblicato da The Conversation con licenza Creative Commons. Leggi l' articolo originale .





