DeepSeek: cómo una pequeña empresa china de inteligencia artificial está revolucionando a los pesos pesados tecnológicos estadounidenses

La empresa china de inteligencia artificial (IA) DeepSeek ha conmocionado a la comunidad tecnológica con el lanzamiento de modelos de IA extremadamente eficientes que pueden competir con productos de vanguardia de empresas estadounidenses como OpenAI y Anthropic.

Fundada en 2023, DeepSeek ha logrado sus resultados con una fracción del efectivo y el poder computacional de sus competidores.

El modelo de razonamiento R1 de DeepSeek, publicado la semana pasada, generó entusiasmo entre los investigadores, conmoción entre los inversores y la reacción de los pesos pesados de la IA. El 28 de enero, la compañía presentó un modelo compatible con imágenes y texto.

El R1 de Deepseek es un modelo impresionante, sobre todo considerando lo que ofrecen por su precio.

Sin duda, ofreceremos modelos mucho mejores, y es realmente estimulante tener un nuevo competidor. Presentaremos algunos lanzamientos.
— Sam Altman (@sama) 28 de enero de 2025

Entonces, ¿qué hizo DeepSeek y cómo lo hizo?

Lo que hizo DeepSeek

En diciembre, DeepSeek lanzó su modelo V3 . Se trata de un modelo de lenguaje grande «estándar» muy potente, con un rendimiento similar al de GPT-4o de OpenAI y Claude 3.5 de Anthropic.

Si bien estos modelos son propensos a errores y a veces inventan sus propios datos , pueden realizar tareas como responder preguntas, escribir ensayos y generar código informático. En algunas pruebas de resolución de problemas y razonamiento matemático, obtienen mejores resultados que el ser humano promedio.

El entrenamiento de V3 tuvo un costo estimado de aproximadamente US$5,58 millones. Esto es considerablemente más económico que el de GPT-4, por ejemplo, cuyo desarrollo más de US$100 millones

DeepSeek también afirma haber entrenado V3 utilizando alrededor de 2000 chips informáticos especializados, concretamente GPU H800 de NVIDIA . Esta cifra es mucho menor que la de otras compañías, que podrían haber utilizado hasta 16 000 de los chips H100 más potentes.

El 20 de enero, DeepSeek lanzó otro modelo, llamado R1 . Se trata de un modelo de razonamiento que intenta resolver problemas complejos paso a paso. Estos modelos parecen ser más eficaces en muchas tareas que requieren contexto y tienen múltiples componentes interrelacionados, como la comprensión lectora y la planificación estratégica.

El modelo R1 es una versión optimizada del V3, modificada mediante una técnica llamada aprendizaje por refuerzo. R1 parece funcionar a un nivel similar al o1 de OpenAI , lanzado el año pasado.

DeepSeek también utilizó la misma técnica para crear versiones “razonables” de pequeños modelos de código abierto que pueden ejecutarse en computadoras domésticas.

Este lanzamiento ha despertado un gran interés en DeepSeek, impulsando la popularidad de su aplicación de chatbot basada en la versión 3 y provocando una caída drástica de los precios de las acciones tecnológicas, a medida que los inversores reevalúan la industria de la IA. Al momento de escribir este artículo, el fabricante de chips NVIDIA ha perdido alrededor de US$600 mil millones en valor.

Cómo lo hizo DeepSeek

Los avances de DeepSeek han radicado en lograr una mayor eficiencia: obtener buenos resultados con menos recursos. En particular, los desarrolladores de DeepSeek han sido pioneros en dos técnicas que podrían ser adoptadas por investigadores de IA de forma más amplia.

El primero se relaciona con una idea matemática llamada "escasez". Los modelos de IA tienen numerosos parámetros que determinan sus respuestas a las entradas (V3 tiene alrededor de 671 mil millones), pero solo una pequeña fracción de estos parámetros se utiliza para cualquier entrada dada.

Sin embargo, predecir qué parámetros serán necesarios no es fácil. DeepSeek utilizó una nueva técnica para lograrlo y entrenó solo esos parámetros. Como resultado, sus modelos necesitaron mucho menos entrenamiento que con un enfoque convencional.

El otro truco tiene que ver con cómo V3 almacena la información en la memoria de la computadora. DeepSeek ha encontrado una forma inteligente de comprimir los datos relevantes, facilitando su almacenamiento y acceso rápido.

DeepSeek ha revolucionado la multimillonaria industria de la inteligencia artificial. Robert Way/Shutterstock

Qué significa

Los modelos y técnicas de DeepSeek se han publicado bajo la licencia MIT , lo que significa que cualquiera puede descargarlos y modificarlos.

Si bien esto puede ser una mala noticia para algunas empresas de IA (cuyas ganancias podrían verse erosionadas por la existencia de modelos poderosos y de libre acceso), es una gran noticia para la comunidad de investigación de IA en general.

Actualmente, gran parte de la investigación en IA requiere acceso a enormes cantidades de recursos informáticos. Investigadores como yo, que trabajamos en universidades (o en cualquier otro lugar, salvo en grandes empresas tecnológicas), hemos tenido una capacidad limitada para realizar pruebas y experimentos.

Modelos y técnicas más eficientes cambian la situación. La experimentación y el desarrollo podrían ahora ser mucho más fáciles.

Para los consumidores, el acceso a la IA también podría abaratarse. Se podrían ejecutar más modelos de IA en los propios dispositivos de los usuarios, como portátiles o teléfonos, en lugar de ejecutarlos en la nube por una suscripción.

Para los investigadores que ya cuentan con muchos recursos, una mayor eficiencia podría tener un menor impacto. No está claro si el enfoque de DeepSeek ayudará a crear modelos con un mejor rendimiento general o simplemente modelos más eficientes.

Tongliang Liu, Profesor Asociado de Aprendizaje Automático y Director del Centro de IA de Sídney, Universidad de Sídney.

Este artículo se republica de The Conversation bajo una licencia Creative Commons. Lea el artículo original .

SODP

Medios SODP

DeepSeek: Cómo una pequeña empresa china de inteligencia artificial está revolucionando a los pesos pesados tecnológicos estadounidenses

Creado por

Hecho verificado por

Editado por

Tabla de contenido

Por Vahe Arabian

Lo que hizo DeepSeek

Cómo lo hizo DeepSeek

Qué significa

Acerca de

Enlaces útiles

Artículos destacados

SODP

DeepSeek: Cómo una pequeña empresa china de inteligencia artificial está revolucionando a los pesos pesados ​​tecnológicos estadounidenses

Creado por

Hecho verificado por

Editado por

Tabla de contenido

Suscríbete a AI Insights

Por Vahe Arabian

Lo que hizo DeepSeek

Cómo lo hizo DeepSeek

Qué significa

Publicaciones relacionadas

Enlaces útiles

Artículos destacados

DeepSeek: Cómo una pequeña empresa china de inteligencia artificial está revolucionando a los pesos pesados tecnológicos estadounidenses