La semaine dernière, le milliardaire et propriétaire de X, Elon Musk, a affirmé que la réserve de données générées par l'homme et utilisées pour entraîner des modèles d'intelligence artificielle (IA) tels que ChatGPT était épuisée.
Musk n'a fourni aucune preuve à l'appui de cette affirmation. Cependant, d'autres figures de proue du secteur technologique ont tenu des propos similaires ces derniers mois. Par ailleurs, des études antérieures indiquaient que les données générées par l'humain seraient épuisées d'ici deux à huit ans.
Cela s'explique principalement par le fait que les humains ne peuvent pas créer suffisamment rapidement de nouvelles données (textes, vidéos, images, etc.) pour répondre aux besoins considérables et rapides des modèles d'IA. Lorsque les données authentiques viendront à manquer, cela posera un problème majeur tant pour les développeurs que pour les utilisateurs d'IA.
Cela obligera les entreprises technologiques à dépendre davantage des données générées par l'IA, appelées « données synthétiques ». Ce qui, à son tour, pourrait rendre les systèmes d'IA actuellement utilisés par des centaines de millions de personnes moins précis et fiables – et donc moins utiles.
Mais ce n'est pas une fatalité. En réalité, utilisées et gérées avec soin, les données synthétiques pourraient améliorer les modèles d'IA.

Les problèmes liés aux données réelles
Les entreprises technologiques dépendent des données – réelles ou synthétiques – pour concevoir, entraîner et perfectionner des modèles d'IA générative tels que ChatGPT. La qualité de ces données est cruciale. Des données de mauvaise qualité produisent des résultats médiocres, tout comme l'utilisation d'ingrédients de piètre qualité en cuisine donne des plats de mauvaise qualité.
Les données réelles désignent les textes, vidéos et images créés par des humains. Les entreprises les collectent par le biais de méthodes telles que les enquêtes, les expériences, les observations ou l'exploration de sites web et de médias sociaux.
Les données réelles sont généralement considérées comme précieuses car elles incluent des événements authentiques et couvrent un large éventail de scénarios et de contextes. Cependant, elles ne sont pas parfaites.
Par exemple, elle peut contenir des fautes d'orthographe et des informations incohérentes ou non pertinentes . Elle peut également être fortement biaisée , ce qui peut, par exemple, conduire les modèles d'IA générative à créer des images ne montrant que des hommes ou des personnes blanches dans certains métiers.
Ce type de données exige également beaucoup de temps et d'efforts pour sa préparation. Tout d'abord, des personnes collectent les ensembles de données, puis les étiquettent afin de les rendre exploitables par un modèle d'IA. Elles vérifient et nettoient ensuite ces données pour corriger les incohérences, avant que les ordinateurs ne les filtrent, les organisent et les valident.
Ce processus peut représenter jusqu'à 80 % du temps total investi dans le développement d'un système d'IA.
Mais comme indiqué plus haut, les données réelles se font également de plus en plus rares car les humains ne peuvent pas les produire assez rapidement pour répondre à la demande croissante de l'IA.
L'essor des données synthétiques
Les données synthétiques sont créées ou générées artificiellement par des algorithmes , comme un texte généré par ChatGPT ou une image générée par DALL-E .
En théorie, les données synthétiques offrent une solution plus économique et plus rapide pour l'entraînement des modèles d'IA.
Elle aborde également les questions de confidentialité et les problèmes éthiques, notamment en ce qui concerne les informations personnelles sensibles comme les données de santé.
Surtout, contrairement aux données réelles, elle n'est pas rare. En fait, elle est illimitée.
Désormais, il n'y aura que des données synthétiques.
-RohanPaul (@rohanpaul_ai) 9 janvier 2025
« La somme cumulée des connaissances humaines a été épuisée dans l'entraînement de l'IA. C'est ce qui s'est passé, en gros, l'année dernière. »
– Elon pic.twitter.com/rdPzCbvdLv
Les défis des données synthétiques
Pour ces raisons, les entreprises technologiques se tournent de plus en plus vers les données synthétiques pour entraîner leurs systèmes d'IA. Le cabinet d'études Gartner estime que d'ici 2030, les données synthétiques deviendront la principale forme de données utilisées en IA.
Mais bien que les données synthétiques offrent des solutions prometteuses, elles ne sont pas sans défis.
L'une des principales préoccupations est que les modèles d'IA peuvent « s'effondrer » lorsqu'ils dépendent trop de données synthétiques. Cela signifie qu'ils commencent à générer tellement d'« hallucinations » – des réponses contenant de fausses informations – que leur qualité et leurs performances se dégradent tellement qu'ils deviennent inutilisables.
Par exemple, les modèles d'IA ont déjà du mal à orthographier correctement certains mots. Si ces données truffées d'erreurs sont utilisées pour entraîner d'autres modèles, ces derniers reproduiront inévitablement ces erreurs.
Contenu provenant de nos partenaires
Les données synthétiques présentent également le risque d'être trop simplistes . Elles peuvent être dépourvues des nuances et de la diversité présentes dans les ensembles de données réels, ce qui pourrait rendre les résultats des modèles d'IA entraînés sur ces données également trop simplistes et moins utiles.
Créer des systèmes robustes pour garantir la précision et la fiabilité de l'IA
Pour remédier à ces problèmes, il est essentiel que les organismes et organisations internationaux tels que l' Organisation internationale de normalisation ou l' Union internationale des télécommunications mettent en place des systèmes robustes de suivi et de validation des données d'entraînement de l'IA et veillent à ce que ces systèmes puissent être mis en œuvre à l'échelle mondiale.
Les systèmes d'IA peuvent être équipés pour suivre les métadonnées, permettant ainsi aux utilisateurs ou aux systèmes de retracer l'origine et la qualité des données synthétiques utilisées pour leur entraînement. Ceci viendrait compléter un système de suivi et de validation standardisé à l'échelle mondiale.
Il est essentiel que les humains supervisent les données synthétiques tout au long du processus d'entraînement d'un modèle d'IA afin d'en garantir la qualité. Cette supervision doit inclure la définition des objectifs, la validation de la qualité des données, le respect des normes éthiques et le suivi des performances du modèle.
Paradoxalement, les algorithmes d'IA peuvent aussi jouer un rôle dans l'audit et la vérification des données, garantissant ainsi la précision des résultats générés par d'autres modèles d'IA. Par exemple, ces algorithmes peuvent comparer des données synthétiques à des données réelles afin d'identifier les erreurs ou les incohérences et d'assurer la cohérence et l'exactitude des données. De cette manière, les données synthétiques pourraient permettre d'améliorer les modèles d'IA.
L'avenir de l'IA repose sur des données de haute qualité . Les données synthétiques joueront un rôle de plus en plus important pour pallier la pénurie de données.
Toutefois, son utilisation doit être gérée avec soin afin de maintenir la transparence, de réduire les erreurs et de préserver la confidentialité – en veillant à ce que les données synthétiques constituent un complément fiable aux données réelles, garantissant ainsi la précision et la fiabilité des systèmes d'IA.
James Jin Kang, maître de conférences en informatique à l'université RMIT Vietnam .
Cet article est republié de The Conversation sous licence Creative Commons. Lire l' article original .








