Las empresas tecnológicas recurren a «datos sintéticos» para entrenar modelos de IA, pero hay un coste oculto

La semana pasada, el multimillonario y propietario de X, Elon Musk, afirmó que el conjunto de datos generados por humanos que se utiliza para entrenar modelos de inteligencia artificial (IA) como ChatGPT se ha agotado.

Musk no citó ninguna evidencia que lo respalde. Pero otras figuras destacadas de la industria tecnológica han hecho afirmaciones similares en los últimos meses. Investigaciones anteriores indicaban que los datos generados por humanos se agotarían en un plazo de dos a ocho años.

Esto se debe, en gran medida, a que los humanos no pueden crear nuevos datos, como texto, vídeo e imágenes, con la suficiente rapidez para satisfacer las enormes y veloces demandas de los modelos de IA. Cuando los datos genuinos se agoten, representará un grave problema tanto para los desarrolladores como para los usuarios de IA.

Obligará a las empresas tecnológicas a depender en mayor medida de los datos generados por la IA, conocidos como «datos sintéticos». Esto, a su vez, podría provocar que los sistemas de IA que utilizan actualmente cientos de millones de personas sean menos precisos y fiables, y por lo tanto, menos útiles.

Pero esto no es inevitable. De hecho, si se utilizan y gestionan con cuidado, los datos sintéticos podrían mejorar los modelos de IA.

Empresas tecnológicas como OpenAI están utilizando más datos sintéticos para entrenar modelos de IA. T. Schneider/Shutterstock — Empresas tecnológicas como OpenAI utilizan más datos sintéticos para entrenar modelos de IA. T. Schneider/Shutterstock

Los problemas con los datos reales

Las empresas tecnológicas dependen de datos, ya sean reales o sintéticos, para construir, entrenar y perfeccionar modelos de IA generativa como ChatGPT. La calidad de estos datos es crucial. Unos datos deficientes generan resultados deficientes, de la misma manera que usar ingredientes de baja calidad al cocinar puede dar lugar a comidas de baja calidad.

Los datos reales se refieren a textos, vídeos e imágenes creados por personas. Las empresas los recopilan mediante métodos como encuestas, experimentos, observaciones o análisis de sitios web y redes sociales.

Los datos reales suelen considerarse valiosos porque incluyen eventos reales y capturan una amplia gama de escenarios y contextos. Sin embargo, no son perfectos.

Por ejemplo, puede contener errores ortográficos y contenido inconsistente o irrelevante . También puede estar muy sesgado , lo que puede, por ejemplo, llevar a que los modelos de IA generativa creen imágenes que muestren solo a hombres o personas blancas en ciertos trabajos.

Este tipo de datos también requiere mucho tiempo y esfuerzo para su preparación. Primero, se recopilan conjuntos de datos y se etiquetan para que sean significativos para un modelo de IA. Posteriormente, se revisan y depuran estos datos para corregir cualquier inconsistencia, antes de que las computadoras los filtren, organicen y validen.

Este proceso puede ocupar hasta el 80% de la inversión total de tiempo en el desarrollo de un sistema de IA.

Pero, como se dijo anteriormente, los datos reales también son cada vez más escasos porque los humanos no pueden producirlos con la suficiente rapidez para satisfacer la creciente demanda de IA.

El auge de los datos sintéticos

Los datos sintéticos se crean o generan artificialmente mediante algoritmos , como el texto generado por ChatGPT o una imagen generada por DALL-E .

En teoría, los datos sintéticos ofrecen una solución rentable y más rápida para entrenar modelos de IA.

También aborda cuestiones de privacidad y ética, en particular con información personal sensible como los datos de salud.

Es importante destacar que, a diferencia de los datos reales, no escasea. De hecho, es ilimitada.

De aquí en adelante, solo datos sintéticos.

"El conocimiento humano acumulado se ha agotado en el entrenamiento de IA. Eso ocurrió, básicamente, el año pasado".

– Elon pic.twitter.com/rdPzCbvdLv
-Rohan Paul (@rohanpaul_ai) 9 de enero de 2025

Los desafíos de los datos sintéticos

Por estas razones, las empresas tecnológicas recurren cada vez más a datos sintéticos para entrenar sus sistemas de IA. La firma de investigación Gartner estima que, para 2030, los datos sintéticos se convertirán en el principal formato de datos utilizado en IA.

Pero aunque los datos sintéticos ofrecen soluciones prometedoras, no están exentos de desafíos.

Una de las principales preocupaciones es que los modelos de IA pueden colapsar si dependen demasiado de datos sintéticos. Esto significa que empiezan a generar tantas "alucinaciones" (una respuesta que contiene información falsa) y su calidad y rendimiento se deterioran tanto que resultan inutilizables.

Por ejemplo, los modelos de IA ya tienen dificultades para escribir correctamente algunas palabras. Si estos datos, plagados de errores, se utilizan para entrenar otros modelos, es probable que estos también repliquen los errores.

Los datos sintéticos también conllevan el riesgo de ser excesivamente simplistas . Pueden carecer de los matices y la diversidad presentes en los conjuntos de datos reales, lo que podría resultar en que los resultados de los modelos de IA entrenados con ellos también sean excesivamente simplistas y menos útiles.

Ver esta publicación en Instagram

Una publicación compartida por The Washington Post (@washingtonpost)

Creación de sistemas robustos para mantener la IA precisa y confiable

Para abordar estas cuestiones, es esencial que organismos y organizaciones internacionales como la Organización Internacional de Normalización o la Unión Internacional de Telecomunicaciones introduzcan sistemas sólidos para rastrear y validar los datos de entrenamiento de la IA, y garanticen que los sistemas puedan implementarse a nivel mundial.

Los sistemas de IA pueden equiparse para rastrear metadatos, lo que permite a los usuarios o sistemas rastrear el origen y la calidad de cualquier dato sintético con el que hayan sido entrenados. Esto complementaría un sistema de seguimiento y validación estándar a nivel mundial.

Los humanos también deben supervisar los datos sintéticos durante todo el proceso de entrenamiento de un modelo de IA para garantizar su alta calidad. Esta supervisión debe incluir la definición de objetivos, la validación de la calidad de los datos, el cumplimiento de las normas éticas y la supervisión del rendimiento del modelo de IA.

Irónicamente, los algoritmos de IA también pueden desempeñar un papel en la auditoría y verificación de datos, garantizando la precisión de los resultados generados por IA a partir de otros modelos. Por ejemplo, estos algoritmos pueden comparar datos sintéticos con datos reales para identificar errores o discrepancias y garantizar su consistencia y precisión. De esta manera, los datos sintéticos podrían generar mejores modelos de IA.

El futuro de la IA depende de datos de alta calidad . Los datos sintéticos desempeñarán un papel cada vez más importante para superar la escasez de datos.

Sin embargo, su uso debe gestionarse con cuidado para mantener la transparencia, reducir errores y preservar la privacidad, garantizando que los datos sintéticos sirvan como un complemento confiable de los datos reales, manteniendo los sistemas de IA precisos y confiables.

James Jin Kang, profesor titular de Informática, Universidad RMIT de Vietnam .

Este artículo se republica de The Conversation bajo una licencia Creative Commons. Lea el artículo original .

SODP

Medios SODP

Las empresas tecnológicas recurren a «datos sintéticos» para entrenar modelos de IA, pero hay un coste oculto

Creado por

Hecho verificado por

Editado por

Tabla de contenido

Por Vahe Arabian

Los problemas con los datos reales

El auge de los datos sintéticos

Los desafíos de los datos sintéticos

Creación de sistemas robustos para mantener la IA precisa y confiable

Acerca de

Enlaces útiles

Artículos destacados

SODP

Las empresas tecnológicas recurren a «datos sintéticos» para entrenar modelos de IA, pero hay un coste oculto

Creado por

Hecho verificado por

Editado por

Tabla de contenido

Suscríbete a AI Insights

Por Vahe Arabian

Los problemas con los datos reales

El auge de los datos sintéticos

Los desafíos de los datos sintéticos

Creación de sistemas robustos para mantener la IA precisa y confiable

Publicaciones relacionadas

Enlaces útiles

Artículos destacados