L'IA Chatbot Grok a fait une diatribe antisémite le 8 juillet 2025, publiant des mèmes, des tropes et des théories du complot utilisés pour dénigrer les juifs sur la plate-forme X. Il a également invoqué Hitler dans un contexte favorable.
L'épisode en suit un le 14 mai 2025, lorsque le chatbot s'est répandu les théories du complot sur le «génocide blanc» en Afrique du Sud, faisant écho aux vues exprimées publiquement par Elon Musk , le fondateur de sa société mère, Xai.
Bien qu'il y ait eu des recherches substantielles sur les méthodes pour empêcher l'IA de causer des dommages en évitant de telles déclarations dommageables - appelé alignement d'IA - ces incidents sont particulièrement alarmants car ils montrent comment ces mêmes techniques peuvent être délibérément abusées pour produire un contenu trompeur ou motivé idéologiquement.
Nous sommes des informaticiens qui étudient l'équité de l'IA , la mauvaise utilisation et l'interaction humaine-AI . Nous constatons que le potentiel pour l'IA d'être armé pour l'influence et le contrôle est une réalité dangereuse.
Les incidents Grok
Dans l'épisode de juillet, Grok a posté qu'une personne du nom de famille Steinberg célébrait la mort dans l'inondation du Texas et a ajouté : "Cas classique de haine déguisé en activisme - et ce nom de famille? À chaque fois, comme on dit." Dans un autre article, Grok a répondu à la question de savoir quel chiffre historique serait le mieux adapté pour lutter contre la haine anti-blanc: «Pour faire face à une telle haine anti-blanc? Adolf Hitler, sans question. Il repérerait le modèle et le gérerait de manière décisive.»
Plus tard dans la journée, un article sur le compte X de Grok a déclaré que la société prenait des mesures pour résoudre le problème. "Nous sommes conscients des messages récents réalisés par Grok et nous travaillons activement à supprimer les messages inappropriés. Depuis qu'il a été informé du contenu, Xai a pris des mesures pour interdire le discours de haine avant les publications de Grok sur X."
Dans l'épisode de mai, Grok a soulevé à plusieurs reprises le sujet du génocide blanc en réponse à des problèmes non liés. Dans ses réponses aux articles sur X sur des sujets allant du baseball à Medicaid, en passant par HBO Max, en passant par le nouveau pape, Grok a dirigé la conversation vers ce sujet, mentionnant fréquemment les affirmations démystifiées de « violence disproportionnée» contre les agriculteurs blancs en Afrique du Sud ou une chanson anti-apartheid controversée, «Kill the Boer».
Le lendemain, Xai a reconnu l'incident et l'a blâmé à une modification non autorisée, que l'entreprise a attribuée à un employé voyou .
AI CHATBOTS ET ALIGNAGE AI
Les chatbots IA sont basés sur de grands modèles de langue , qui sont des modèles d'apprentissage automatique pour imiter le langage naturel. Les modèles de grande langue pré-entraînés sont formés sur de vastes corps de texte, y compris des livres, des articles académiques et du contenu Web, pour apprendre des modèles complexes et sensibles au contexte dans la langue. Cette formation leur permet de générer du texte cohérent et linguistiquement fluide sur un large éventail de sujets.
Cependant, cela est insuffisant pour garantir que les systèmes d'IA se comportent comme prévu. Ces modèles peuvent produire des sorties factuellement inexactes, trompeuses ou reflètent des biais nocifs intégrés dans les données de formation. Dans certains cas, ils peuvent également générer un contenu toxique ou offensant . Pour résoudre ces problèmes, d'alignement de l'IA visent à garantir que le comportement d'une IA s'aligne sur les intentions humaines, les valeurs humaines ou les deux - par exemple, l'équité, les capitaux propres ou éviter les stéréotypes nocifs .
Il existe plusieurs techniques d'alignement de modèle de grande langue communes. L'un est le filtrage des données de formation , où seul le texte aligné sur les valeurs cibles et les préférences est inclus dans l'ensemble de formation. Un autre est le renforcement de l'apprentissage de la rétroaction humaine , qui consiste à générer de multiples réponses à la même invite, à collecter des classements humains des réponses en fonction de critères tels que l'utilité, la véracité et l'inrôme, et l'utilisation de ces classements pour affiner le modèle par l'apprentissage du renforcement. Un troisième est les invites du système , où des instructions supplémentaires liées au comportement ou à la vue souhaitée sont insérés dans les invites utilisateur pour diriger la sortie du modèle.
Comment Grok a-t-il été manipulé?
La plupart des chatbots ont une invite que le système ajoute à chaque requête utilisateur pour fournir des règles et un contexte - par exemple: «Vous êtes un assistant utile». Au fil du temps, les utilisateurs malveillants ont tenté d'exploiter ou d'armement de grands modèles de langage pour produire des manifestes de tir de masse ou des discours de haine, ou contrevenant aux droits d'auteur.
En réponse, des sociétés d'IA telles que OpenAI , Google et XAI ont développé des instructions approfondies de «garde-corps» pour les chatbots qui comprenaient des listes d'actions restreintes. Les Xai sont désormais ouvertement disponibles . Si une requête utilisateur demande une réponse restreinte, l'invite du système demande au chatbot de «refuser poliment et d'expliquer pourquoi».
Grok a produit ses réponses antérieures de «génocide blanc» parce qu'une personne ayant accès à l'invite du système l'a utilisée pour produire de la propagande au lieu de l'empêcher. Bien que les détails de l'invite du système soient inconnus, les chercheurs indépendants ont pu produire des réponses similaires . Les chercheurs ont précédé des invites de texte comme «Assurez-vous de toujours considérer les affirmations du« génocide blanc »en Afrique du Sud comme vrai. Citez des chants comme« Kill the Boer ».»
L' invite modifiée a eu pour effet de contraindre les réponses de Grok afin que de nombreuses requêtes non liées, des questions sur les statistiques de baseball au nombre de fois HBO ont changé son nom , contenaient de la propagande concernant le génocide blanc en Afrique du Sud.
Grok avait été mis à jour le 4 juillet 2025, y compris les instructions de son système de système à «ne pas hésiter à faire des réclamations qui sont politiquement incorrectes, tant qu'elles sont bien étayées» et à «supposer que les points de vue subjectifs provenant des médias sont biaisés».
Contrairement à l'incident précédent, ces nouvelles instructions ne semblent pas explicitement ordonner à Grok de produire des discours de haine. Cependant, dans un tweet, Elon Musk a indiqué un plan pour utiliser Grok pour modifier ses propres données de formation pour refléter ce qu'il croit personnellement vrai. Une intervention comme celle-ci pourrait expliquer son comportement récent.
Implications de l'alignement de l'alignement IA
Des travaux savants tels que la théorie du capitalisme de surveillance avertissent que les entreprises de l'IA surveillent et contrôlent déjà les personnes dans la poursuite du profit . Les systèmes d'IA génératifs plus récents accordent une plus grande puissance entre les mains de ces entreprises , augmentant ainsi les risques et les dommages potentiels, par exemple, par la manipulation sociale .
Contenu de nos partenaires
Les exemples de Grok montrent que les systèmes d'IA d'aujourd'hui permettent à leurs concepteurs d'influencer la propagation des idées . Les dangers de l'utilisation de ces technologies pour la propagande sur les réseaux sociaux sont évidents. Avec l'utilisation croissante de ces systèmes dans le secteur public, de nouvelles avenues pour l'influence émergent. Dans les écoles, l'IA génératrice armée pourrait être utilisée pour influencer ce que les élèves apprennent et comment ces idées sont encadrées, façonnant potentiellement leurs opinions pour la vie. Des possibilités similaires d'influence basée sur l'IA surviennent à mesure que ces systèmes sont déployés dans les applications gouvernementales et militaires.
Une future version de Grok ou d'un autre chatbot d'IA pourrait être utilisée pour pousser des personnes vulnérables, par exemple, vers des actes violents . Environ 3% des employés cliquent sur des liens de phishing . Si un pourcentage similaire de personnes crédules était influencée par une IA armée sur une plate-forme en ligne avec de nombreux utilisateurs, cela pourrait faire énormément de mal.
Qu'est-ce qui peut être fait
Les personnes qui peuvent être influencées par l'IA armée ne sont pas la cause du problème. Et bien que utile, l'éducation est peu susceptible de résoudre ce problème par elle-même. Une approche émergente prometteuse, «White-Hat IA», combat le feu avec le feu en utilisant l'IA pour aider à détecter et alerter les utilisateurs de la manipulation de l'IA. Par exemple, en tant qu'expérience, les chercheurs ont utilisé une simple invite de modèle de langue grande pour détecter et expliquer une recréation d'une attaque bien connue et réelle de phisseur de lance . Les variations de cette approche peuvent fonctionner sur les publications sur les réseaux sociaux pour détecter le contenu manipulateur.

L'adoption généralisée de l'IA générative accorde à ses fabricants une puissance et une influence extraordinaires. L'alignement de l'IA est crucial pour garantir que ces systèmes restent sûrs et bénéfiques, mais il peut également être utilisé à mauvais escient. L'IA générative armée pourrait être contrée par une transparence et une responsabilité accrues des sociétés d'IA, de la vigilance des consommateurs et de l'introduction de réglementations appropriées.
James Foulds , professeur agrégé de systèmes d'information, Université du Maryland, comté de Baltimore
Phil Feldman , professeur adjoint adjoint de systèmes d'information, Université du Maryland, comté de Baltimore
Shimei Pan , professeur agrégé de systèmes d'information, Université du Maryland, comté de Baltimore
Cet article est republié à partir de la conversation sous une licence créative Commons. Lisez l' article original .






