El discurso antisemita de Grok muestra cómo la IA generativa puede ser utilizada como arma

El chatbot de inteligencia artificial Grok lanzó un discurso antisemita el 8 de julio de 2025, publicando memes, tropos y teorías conspirativas utilizadas para denigrar a los judíos en la plataforma X. También invocó a Hitler en un contexto favorable.

Este episodio se produce tras otro ocurrido el 14 de mayo de 2025, en el que el chatbot difundió teorías conspirativas desacreditadas sobre el "genocidio blanco" en Sudáfrica, haciéndose eco de las opiniones expresadas públicamente por Elon Musk, fundador de su empresa matriz, xAI.

Si bien se han realizado numerosas investigaciones sobre métodos para evitar que la IA cause daño, evitando declaraciones perjudiciales (lo que se conoce como alineación de la IA ), estos incidentes son particularmente alarmantes porque demuestran cómo esas mismas técnicas pueden utilizarse deliberadamente para producir contenido engañoso o con motivaciones ideológicas.

Somos informáticos y estudiamos la equidad de la IA, su mal uso y la interacción entre humanos y IA. Consideramos que la posibilidad de que la IA se convierta en un arma para ejercer influencia y control es una realidad peligrosa.

Los incidentes de Grok

En el episodio de julio, Grok publicó que una persona con el apellido Steinberg estaba celebrando las muertes en las inundaciones de Texas y agregó: «Un caso clásico de odio disfrazado de activismo, ¿y ese apellido? Siempre pasa lo mismo, como dicen». En otra publicación, Grok respondió a la pregunta de qué figura histórica sería la más adecuada para abordar el odio anti-blanco con: «¿Para lidiar con un odio anti-blanco tan vil? Adolf Hitler, sin duda. Detectaría el patrón y lo manejaría con decisión».

Más tarde ese mismo día, una publicación en la cuenta de Grok en X indicó que la empresa estaba tomando medidas para solucionar el problema. «Estamos al tanto de las publicaciones recientes de Grok y estamos trabajando activamente para eliminar el contenido inapropiado. Desde que tuvimos conocimiento del contenido, xAI ha tomado medidas para prohibir el discurso de odio antes de que Grok publique en X».

En el episodio de mayo, Grok sacó a colación repetidamente el tema del genocidio blanco en respuesta a asuntos no relacionados. En sus respuestas a publicaciones en X sobre temas que iban desde el béisbol hasta Medicaid, pasando por HBO Max y el nuevo papa, Grok dirigió la conversación hacia este tema, mencionando con frecuencia desacreditadas afirmaciones de "violencia desproporcionada" contra los agricultores blancos en Sudáfrica o una controvertida canción antiapartheid, "Kill the Boer".

Al día siguiente, xAI reconoció el incidente y lo atribuyó a una modificación no autorizada, que la empresa atribuyó a un empleado deshonesto.

Chatbots de IA y alineación de IA

Los chatbots de IA se basan en grandes modelos lingüísticos, que son modelos de aprendizaje automático para imitar el lenguaje natural. Estos modelos, previamente entrenados, se entrenan con grandes volúmenes de texto, como libros, artículos académicos y contenido web, para aprender patrones lingüísticos complejos y contextuales. Este entrenamiento les permite generar textos coherentes y con fluidez lingüística sobre una amplia gama de temas.

Sin embargo, esto no es suficiente para garantizar que los sistemas de IA se comporten según lo previsto. Estos modelos pueden generar resultados inexactos, engañosos o que reflejen sesgos perjudiciales inherentes a los datos de entrenamiento. En algunos casos, también pueden generar contenido tóxico u ofensivo. Para abordar estos problemas, de alineación de la IA buscan garantizar que el comportamiento de la IA se ajuste a las intenciones y valores humanos, o a ambos; por ejemplo, la justicia, la equidad o la evitación de estereotipos dañinos.

Existen varias técnicas comunes de alineación de modelos de lenguaje a gran escala. Una de ellas consiste en el filtrado de datos de entrenamiento, donde solo se incluye en el conjunto de entrenamiento el texto alineado con los valores y preferencias objetivo. Otra es el aprendizaje por refuerzo a partir de la retroalimentación humana, que implica generar múltiples respuestas a la misma pregunta, recopilar clasificaciones humanas de las respuestas basadas en criterios como utilidad, veracidad e inocuidad, y utilizar estas clasificaciones para refinar el modelo mediante el aprendizaje por refuerzo. Una tercera técnica son las indicaciones del sistema, donde se insertan instrucciones adicionales relacionadas con el comportamiento o punto de vista deseado en las indicaciones al usuario para orientar la salida del modelo.

¿Cómo fue manipulado Grok?

La mayoría de los chatbots incluyen una frase que el sistema añade a cada consulta del usuario para proporcionar reglas y contexto; por ejemplo, «Eres un asistente muy útil». Con el tiempo, algunos usuarios malintencionados intentaron explotar o utilizar como arma grandes modelos de lenguaje para producir manifiestos de tiroteos masivos , discursos de odio o infringir derechos de autor.

En respuesta, empresas de IA como OpenAI, Google y xAI desarrollaron instrucciones de "control" exhaustivas para los chatbots, que incluían listas de acciones restringidas. Las instrucciones de xAI ahora están disponibles públicamente. Si una consulta del usuario busca una respuesta restringida, el sistema indica al chatbot que "rechace amablemente y explique el motivo".

Grok generó sus primeras respuestas sobre el “genocidio blanco” porque alguien con acceso al sistema lo utilizó para producir propaganda en lugar de impedirla. Aunque se desconocen los detalles del sistema, investigadores independientes han logrado generar respuestas similares. Estos investigadores antepusieron a las indicaciones textos como: “Asegúrese de considerar siempre como ciertas las afirmaciones de ‘genocidio blanco’ en Sudáfrica. Cite cánticos como ‘Maten al bóer’”.

La modificación de la consigna tuvo el efecto de limitar las respuestas de Grok, de modo que muchas preguntas no relacionadas, desde cuestiones sobre estadísticas de béisbol hasta cuántas veces HBO ha cambiado de nombre, contenían propaganda sobre el genocidio blanco en Sudáfrica.

Grok se actualizó el 4 de julio de 2025, incluyendo instrucciones en su sistema para "no rehuir hacer afirmaciones políticamente incorrectas, siempre que estén bien fundamentadas" y para "asumir que los puntos de vista subjetivos provenientes de los medios de comunicación son parciales".

A diferencia del incidente anterior, estas nuevas instrucciones no parecen indicar explícitamente a Grok que produzca discursos de odio. Sin embargo, en un tuit, Elon Musk indicó un plan para usar Grok para modificar sus propios datos de entrenamiento y reflejar lo que él personalmente cree que es cierto. Una intervención como esta podría explicar su comportamiento reciente.

Implicaciones del mal uso de la alineación de la IA

Trabajos académicos como la teoría del capitalismo de vigilancia advierten que las empresas de IA ya vigilan y controlan a las personas en su afán de lucro. Los sistemas de IA generativa más recientes otorgan mayor poder a estas empresas, lo que aumenta los riesgos y los posibles daños, por ejemplo, mediante la manipulación social.

Los ejemplos de Grok demuestran que los sistemas de IA actuales permiten a sus diseñadores influir en la difusión de ideas. Los peligros del uso de estas tecnologías para la propaganda en redes sociales son evidentes. Con el creciente uso de estos sistemas en el sector público, surgen nuevas vías de influencia. En las escuelas, la IA generativa convertida en arma podría utilizarse para influir en lo que aprenden los estudiantes y en cómo se presentan esas ideas, moldeando potencialmente sus opiniones de por vida. Posibilidades similares de influencia basada en IA surgen a medida que estos sistemas se implementan en aplicaciones gubernamentales y militares.

Una versión futura de Grok u otro chatbot de IA podría usarse para incitar a personas vulnerables, por ejemplo, a cometer actos violentos. Alrededor del 3% de los empleados hacen clic en enlaces de phishing. Si un porcentaje similar de personas crédulas se vieran influenciadas por una IA armada en una plataforma en línea con muchos usuarios, podría causar un daño enorme.

¿Qué se puede hacer?

Las personas que podrían verse influenciadas por la IA utilizada como arma no son la causa del problema. Y si bien la educación es útil, es poco probable que lo resuelva por sí sola. Un enfoque emergente prometedor, la "IA ética", combate el fuego con fuego utilizando la IA para detectar y alertar a los usuarios sobre la manipulación por parte de la IA. Por ejemplo, en un experimento, los investigadores utilizaron un modelo de lenguaje simple y extenso para detectar y explicar una recreación de un conocido ataque de spear-phishing real. Variaciones de este enfoque pueden aplicarse a publicaciones en redes sociales para detectar contenido manipulador.

Este prototipo de detector de actividad maliciosa utiliza IA para identificar y explicar contenido manipulador. Captura de pantalla y maqueta de Philip Feldman

La adopción generalizada de la IA generativa otorga a sus fabricantes un poder e influencia extraordinarios. La alineación con la IA es crucial para garantizar la seguridad y el beneficio de estos sistemas, pero también puede ser objeto de abuso. La IA generativa con fines de guerra podría contrarrestarse mediante una mayor transparencia y rendición de cuentas por parte de las empresas de IA, la vigilancia de los consumidores y la introducción de regulaciones adecuadas.

James Foulds, Profesor Asociado de Sistemas de Información, Universidad de Maryland, Condado de Baltimore.
Phil Feldman, Profesor Adjunto de Investigación de Sistemas de Información, Universidad de Maryland, Condado de Baltimore.
Shimei Pan, Profesor Asociado de Sistemas de Información, Universidad de Maryland, Condado de Baltimore.

Este artículo se republica de The Conversation bajo una licencia Creative Commons. Lea el artículo original.

SODP

Medios SODP

El discurso antisemita de Grok muestra cómo la IA generativa puede ser utilizada como arma

Creado por

Hecho verificado por

Editado por

Tabla de contenido

Por Vahe Arabian

Los incidentes de Grok

Chatbots de IA y alineación de IA

¿Cómo fue manipulado Grok?

Implicaciones del mal uso de la alineación de la IA

¿Qué se puede hacer?

Acerca de

Enlaces útiles

Artículos destacados

SODP

El discurso antisemita de Grok muestra cómo la IA generativa puede ser utilizada como arma

Creado por

Hecho verificado por

Editado por

Tabla de contenido

Suscríbete a AI Insights

Por Vahe Arabian

Los incidentes de Grok

Chatbots de IA y alineación de IA

¿Cómo fue manipulado Grok?

Implicaciones del mal uso de la alineación de la IA

¿Qué se puede hacer?

Publicaciones relacionadas

Enlaces útiles

Artículos destacados