SODP logo

    Technologieunternehmen setzen auf „synthetische Daten“, um KI-Modelle zu trainieren – doch es gibt versteckte Kosten

    Letzte Woche behauptete der Milliardär und X-Eigentümer Elon Musk, der Pool an von Menschen generierten Daten, der zum Trainieren von KI-Modellen wie ChatGPT verwendet wird, sei erschöpft. Musk sagte nicht…
    Aktualisiert am: 1. Dezember 2025
    James Jin Kang

    Erstellt von

    James Jin Kang

    Das Gespräch

    Faktencheck durch

    Das Gespräch

    James Jin Kang

    Herausgegeben von

    James Jin Kang

    behauptete der Milliardär und Eigentümer von X, Elon Musk, der Pool an von Menschen erzeugten Daten, die zum Trainieren von Modellen der künstlichen Intelligenz (KI) wie ChatGPT verwendet werden, sei erschöpft.

    Musk nannte keine Beweise für diese Behauptung. Andere führende Persönlichkeiten der Technologiebranche haben in den letzten Monaten ähnliche Aussagen Frühere Studien deuteten zudem darauf hin, dass die von Menschen generierten Daten innerhalb von zwei bis acht Jahren erschöpft sein würden.

    Dies liegt vor allem daran, dass Menschen nicht schnell genug neue Daten wie Texte, Videos und Bilder erzeugen können, um mit dem rasanten und enormen Bedarf von KI-Modellen Schritt zu halten. Wenn die vorhandenen Daten ausgehen, stellt dies ein großes Problem für Entwickler und Anwender von KI dar.

    Dies wird Technologieunternehmen zwingen, sich stärker auf KI-generierte Daten, sogenannte „synthetische Daten“, zu stützen. Und dies wiederum könnte dazu führen, dass die KI-Systeme, die derzeit von Hunderten Millionen Menschen genutzt werden, weniger genau und zuverlässig – und somit weniger nützlich – werden.

    Dies ist jedoch kein unausweichliches Ergebnis. Im Gegenteil: Bei sorgfältiger Nutzung und Verwaltung können synthetische Daten KI-Modelle sogar verbessern.

    Technologieunternehmen wie OpenAI nutzen vermehrt synthetische Daten, um KI-Modelle zu trainieren. T. Schneider/Shutterstock
    Technologieunternehmen wie OpenAI nutzen vermehrt synthetische Daten, um KI-Modelle zu trainieren. T. Schneider/Shutterstock

    Die Probleme mit realen Daten

    Technologieunternehmen sind auf Daten – reale oder synthetische – angewiesen, um generative KI-Modelle wie ChatGPT zu entwickeln, zu trainieren und zu optimieren. Die Qualität dieser Daten ist entscheidend. Schlechte Daten führen zu schlechten Ergebnissen, genau wie minderwertige Zutaten beim Kochen zu minderwertigen Gerichten führen.

    Reale Daten umfassen von Menschen erstellte Texte, Videos und Bilder. Unternehmen sammeln sie durch Methoden wie Umfragen, Experimente, Beobachtungen oder die Auswertung von Websites und sozialen Medien.

    Reale Daten gelten im Allgemeinen als wertvoll, da sie tatsächliche Ereignisse beinhalten und ein breites Spektrum an Szenarien und Kontexten erfassen. Sie sind jedoch nicht perfekt.

    Es kann beispielsweise Rechtschreibfehler und inkonsistente oder irrelevante Inhalte . Es kann auch stark voreingenommen , was beispielsweise dazu führen kann, dass generative KI-Modelle Bilder erzeugen , die nur Männer oder weiße Menschen in bestimmten Berufen zeigen.

    Diese Art von Daten erfordert zudem viel Zeit und Aufwand für die Aufbereitung. Zunächst werden Datensätze gesammelt und anschließend so gekennzeichnet , dass sie für ein KI-Modell aussagekräftig sind. Danach werden die Daten überprüft und bereinigt, um etwaige Inkonsistenzen zu beseitigen, bevor sie von Computern gefiltert, organisiert und validiert werden.

    Dieser Prozess kann bis zu 80 % des gesamten Zeitaufwands für die Entwicklung eines KI-Systems in Anspruch nehmen.

    Wie bereits erwähnt, werden reale Daten jedoch zunehmend knapper, weil die Menschen sie nicht schnell genug produzieren können, um die rasant steigende Nachfrage nach KI zu befriedigen.

    Der Aufstieg synthetischer Daten

    Synthetische Daten werden künstlich erzeugt oder durch Algorithmen generiert , wie zum Beispiel Texte, die von ChatGPT , oder Bilder, die von DALL-E .

    Theoretisch bieten synthetische Daten eine kostengünstige und schnellere Lösung für das Training von KI-Modellen.

    Es befasst sich außerdem mit Datenschutzbedenken und ethischen Fragen, insbesondere im Zusammenhang mit sensiblen persönlichen Informationen wie Gesundheitsdaten.

    Wichtig ist, dass sie im Gegensatz zu realen Daten nicht knapp ist. Im Gegenteil, sie ist unbegrenzt verfügbar.

    Die Herausforderungen synthetischer Daten

    Aus diesen Gründen greifen Technologieunternehmen zunehmend auf synthetische Daten zurück, um ihre KI-Systeme zu trainieren. Das Marktforschungsunternehmen Gartner schätzt , dass synthetische Daten bis 2030 die vorherrschende Datenform in der KI sein werden.

    Synthetische Daten bieten zwar vielversprechende Lösungen, sind aber nicht ohne Herausforderungen.

    Eine Hauptsorge besteht darin, dass KI-Modelle „zusammenbrechen“ können, wenn sie sich zu stark auf synthetische Daten stützen. Das bedeutet, dass sie so viele „Halluzinationen“ – also Reaktionen mit falschen Informationen – erzeugen und deren Qualität und Leistung so stark abnehmen, dass sie unbrauchbar werden.

    Beispielsweise haben KI-Modelle bereits Schwierigkeiten , manche Wörter korrekt zu schreiben. Wenn diese fehlerhaften Daten zum Trainieren anderer Modelle verwendet werden, werden diese die Fehler zwangsläufig ebenfalls reproduzieren.

    Synthetische Daten bergen auch das Risiko einer zu starken Vereinfachung . Ihnen fehlen möglicherweise die nuancierten Details und die Vielfalt realer Datensätze, was dazu führen kann, dass die Ergebnisse von KI-Modellen, die damit trainiert werden, ebenfalls zu stark vereinfacht und weniger nützlich sind.

    Entwicklung robuster Systeme, um die Genauigkeit und Vertrauenswürdigkeit der KI zu gewährleisten

    Um diese Probleme anzugehen, ist es unerlässlich, dass internationale Gremien und Organisationen wie die Internationale Organisation für Normung oder die Internationale Fernmeldeunion robuste Systeme zur Verfolgung und Validierung von KI-Trainingsdaten einführen und sicherstellen, dass die Systeme weltweit implementiert werden können.

    KI-Systeme können so ausgestattet werden, dass sie Metadaten erfassen und es Benutzern oder Systemen ermöglichen, die Herkunft und Qualität der synthetischen Daten, mit denen sie trainiert wurden, nachzuverfolgen. Dies würde ein weltweit standardisiertes System zur Nachverfolgung und Validierung ergänzen.

    Menschen müssen die synthetischen Daten während des gesamten Trainingsprozesses eines KI-Modells überwachen, um deren hohe Qualität sicherzustellen. Diese Überwachung sollte die Definition von Zielen, die Validierung der Datenqualität, die Einhaltung ethischer Standards und die Kontrolle der Leistung des KI-Modells umfassen.

    Ironischerweise können KI-Algorithmen auch bei der Prüfung und Verifizierung von Daten eine Rolle spielen und so die Genauigkeit der von anderen Modellen generierten KI-Ergebnisse sicherstellen. Beispielsweise können diese Algorithmen synthetische Daten mit realen Daten vergleichen, um Fehler oder Abweichungen zu erkennen und die Konsistenz und Genauigkeit der Daten zu gewährleisten. Auf diese Weise könnten synthetische Daten zu besseren KI-Modellen führen.

    Die Zukunft der KI hängt von qualitativ hochwertigen Daten . Synthetische Daten werden eine zunehmend wichtige Rolle bei der Überwindung von Datenengpässen spielen.

    Allerdings muss ihre Verwendung sorgfältig gesteuert werden, um Transparenz zu gewährleisten, Fehler zu reduzieren und die Privatsphäre zu wahren – damit synthetische Daten als zuverlässige Ergänzung zu realen Daten dienen und KI-Systeme präzise und vertrauenswürdig bleiben.

    James Jin Kang, Dozent für Informatik an der RMIT University Vietnam .

    Dieser Artikel wurde mit freundlicher Genehmigung von The Conversation unter einer Creative-Commons-Lizenz erneut veröffentlicht. Lesen Sie den Originalartikel .

    0
    Ich würde mich über eure Meinung freuen, bitte kommentiert. x