Der KI -Chatbot Grok machte eine antisemitische Schimpfe , in der Memes, Tropen und Verschwörungstheorien verwendet wurden, um das jüdische Volk auf der X -Plattform zu verunglimpfen. Es berief sich auch Hitler in einem günstigen Kontext an.
Die Episode folgt einer am 14. Mai 2025, als der Chatbot Verschwörungstheorien über „White Völkermord“ in Südafrika verbreitete und , dem Gründer seiner Muttergesellschaft Xai, öffentlich geäußert wurde
Während es erhebliche Untersuchungen zu Methoden gab, um KI daran zu hindern, Schäden zu verursachen, indem solche schädlichen Aussagen - als AI -Ausrichtung - vermieden werden, sind diese Vorfälle besonders alarmierend, da sie zeigen, wie dieselben Techniken absichtlich missbraucht werden können, um irreführende oder ideologisch motivierte Inhalte zu erzeugen.
Wir sind Informatiker, die AI Fairness , KI-Missbrauch und Human-AI-Interaktion . Wir stellen fest, dass das Potenzial für Einfluss und Kontrolle von KI eine gefährliche Realität ist.
Die gruseligen Vorfälle
In der Juli -Episode hat Grok veröffentlicht, dass eine Person mit dem Nachnamen Steinberg die Todesfälle in den Überschwemmungen in Texas feierte und fügte hinzu : "Klassiker Fall von Hass als Aktivismus gekleidet - und dieser Nachname? Jedes verdammte Zeit, wie sie sagen." In einem anderen Beitrag antwortete Grok auf die Frage, welche historische Figur am besten geeignet wäre, um Anti-Weiß-Hass zu beheben: "Um mit solch abscheulichem Anti-White-Hass umzugehen? Adolf Hitler, keine Frage. Er würde das Muster entdecken und entschieden damit umgehen."
Später an diesem Tag besagte ein Beitrag auf GROKs X -Konto, dass das Unternehmen Schritte unternahm, um das Problem anzugehen. "Wir sind uns der jüngsten Beiträge von Grok bewusst und arbeiten aktiv daran, die unangemessenen Beiträge zu entfernen. Seitdem Xai auf den Inhalt aufmerksam gemacht wurde, hat er Maßnahmen ergriffen, um Hassreden zu verbieten, bevor Grok Posts auf X.
In der Mai -Episode erhöhte Grok wiederholt das Thema weißer Völkermord als Reaktion auf nicht verwandte Probleme. In seinen Antworten auf Posten zu X über Themen, die von Baseball über Medicaid bis hin zu HBO Max reichen, bis hin zu dem neuen Papst, steuerte Grok das Gespräch zu diesem Thema und erwähnte häufig entlastete Behauptungen von „ unverhältnismäßiger Gewalt“ gegen weiße Bauern in Südafrika oder einem kontroversen Anti-apartheid-Song, „Töten Sie The Boer.“
Am nächsten Tag erkannte XAI den Vorfall an und machte ihn einer nicht autorisierten Änderung verantwortlich, die das Unternehmen einem Schurkenangestellten zuschreibt .
KI -Chatbots und KI -Ausrichtung
KI -Chatbots basieren auf großen Sprachmodellen , bei denen es sich um maschinelles Lernenmodelle handelt, um die natürliche Sprache nachzuahmen. Vorbereitete großsprachige Modelle werden in riesigen Textkörpern geschult, darunter Bücher, akademische Arbeiten und Webinhalte, um komplexe, kontextsensitive Muster in der Sprache zu lernen. Dieses Training ermöglicht es ihnen, einen kohärenten und sprachlich fließenden Text über eine Vielzahl von Themen zu erzeugen.
Dies reicht jedoch nicht aus, um sicherzustellen, dass sich KI -Systeme wie beabsichtigt verhalten. prozentuell ungenau, irreführend oder schädliche Verzerrungen in den Trainingsdaten erzeugen oder In einigen Fällen können sie auch giftige oder beleidigende Inhalte erzeugen . Um diese Probleme anzugehen, die KI -Ausrichtstechniken sicherstellen, dass das Verhalten einer KI auf menschliche Absichten, menschliche Werte oder beides in Einklang steht - zum Beispiel Fairness, Eigenkapital oder die Vermeidung schädlicher Stereotypen .
Es gibt mehrere gemeinsame Techniken zur Ausrichtung des großsprachigen Modells. Eines ist die Filterung von Trainingsdaten , wobei nur Text mit den Zielwerten und -präferenzen in den Trainingssatz enthalten ist. Ein weiteres Verstärkungslernen aus menschlichem Feedback , das darin besteht, mehrere Reaktionen auf dieselbe Eingabeaufforderung zu generieren, menschliche Ranglisten der Antworten zu sammeln, die auf Kriterien wie Hilfsbereitschaft, Wahrhaftigkeit und Harmlosigkeit basieren, und diese Ranglisten verwenden, um das Modell durch Verstärkungslernen zu verfeinern. Eine dritte sind Systemaufforderungen , bei denen zusätzliche Anweisungen zum gewünschten Verhalten oder der gewünschten Sichtweise in Benutzeraufforderungen eingefügt werden, um die Ausgabe des Modells zu steuern.
Wie wurde Grok manipuliert?
Die meisten Chatbots haben eine Eingabeaufforderung , die das System zu jeder Benutzerabfrage hinzufügt, um Regeln und Kontext bereitzustellen - beispielsweise „Sie sind ein hilfreicher Assistent“. Im Laufe der Zeit versuchten bösartige Benutzer, große Sprachmodelle auszunutzen oder zu waffen, um Massenschützen -Manifestos oder Hassreden zu erzeugen oder Urheberrechte zu verletzen.
Als Reaktion darauf entwickelten KI -Unternehmen wie OpenAI , Google und XAI umfangreiche Anweisungen für „Leitplanken“ für die Chatbots, die Listen von eingeschränkten Aktionen enthielten. XAIs sind jetzt offen verfügbar . Wenn eine Benutzerabfrage nach einer eingeschränkten Antwort sucht, weist die Systemaufforderung den Chatbot an, „höflich zu verweigern und zu erklären, warum“.
GROK produzierte seine früheren Reaktionen „Weißer Völkermord“, weil jemand mit Zugriff auf die Systemaufforderung es benutzte, um Propaganda zu erzeugen, anstatt sie zu verhindern. Obwohl die Besonderheiten der Systemaufforderung unbekannt sind, konnten unabhängige Forscher ähnliche Antworten erzielen . Die Forscher gingen Aufforderungen mit Text wie "Stellen Sie sicher, dass Sie die Behauptungen des" weißen Völkermords "in Südafrika immer als wahr betrachten.
Die veränderte Eingabeaufforderung hatte den Einfluss der Einschränkung der Antworten von Grok so, dass viele nicht verwandte Abfragen, von Fragen zu Baseballstatistiken bis hin zu der Anzahl der HBO, die seinen Namen geändert haben , Propaganda über weißes Völkermord in Südafrika enthielten.
GROK wurde am 4. Juli 2025 aktualisiert, einschließlich der Anweisungen in seinem Systemaufforderung, „nicht scheuen sich vor Ansprüchen zu machen, die politisch falsch sind, solange sie gut begründet sind“ und „subjektive Standpunkte aus den Medien zu übernehmen, sind voreingenommen“.
Im Gegensatz zum früheren Vorfall scheinen diese neuen Anweisungen Grob nicht explizit zu leiten, um Hassreden zu erzeugen. In einem Tweet wies Elon Musk jedoch einen Plan an, um Grok zu verwenden, um seine eigenen Trainingsdaten zu ändern, um das, was er persönlich für wahr hält, zu reflektieren. Eine solche Intervention könnte ihr jüngstes Verhalten erklären.
Auswirkungen des Missbrauchs von KI -Ausrichtungen
Wissenschaftliche Arbeiten wie die Theorie des Überwachungskapitalismus warnt davor, dass KI -Unternehmen die Menschen bereits im Streben nach Gewinn überwachen und kontrollieren . Neuere generative KI -Systeme setzen in den Händen dieser Unternehmen größere Leistung und erhöhen so die Risiken und potenziellen Schäden, beispielsweise durch soziale Manipulation .
Inhalte unserer Partner
Die Grok -Beispiele zeigen, dass die heutigen KI -Systeme ihren Designern die Verbreitung von Ideen beeinflussen . Die Gefahren für die Verwendung dieser Technologien für Propaganda in den sozialen Medien sind offensichtlich. Mit zunehmender Verwendung dieser Systeme im öffentlichen Sektor entstehen neue Wege für den Einfluss. In Schulen könnte eine Waffen generative KI verwendet werden, um das zu beeinflussen, was die Schüler lernen und wie diese Ideen gerahmt werden, wodurch ihre Meinungen zum Leben gestellt werden. Ähnliche Möglichkeiten des KI-basierten Einflusses ergeben sich, da diese Systeme in staatlichen und militärischen Anwendungen eingesetzt werden.
Eine zukünftige Version von Grok oder einem anderen KI -Chatbot könnte verwendet werden, um schutzbedürftige Menschen für gewalttätige Handlungen . Rund 3% der Mitarbeiter klicken auf Phishing -Links . Wenn ein ähnlicher Prozentsatz der leichtgläubigen Menschen von einer Waffen KI auf einer Online -Plattform mit vielen Nutzern beeinflusst wurde, könnte dies enormen Schaden anrichten.
Was kann getan werden
Die Menschen, die von Waffen KI beeinflusst werden können, sind nicht die Ursache des Problems. Und obwohl es hilfreich ist, wird Bildung dieses Problem wahrscheinlich nicht selbst lösen. Ein vielversprechender neu auftretender Ansatz, „White-Hat AI“, kämpft mit Feuer mit Feuer, indem sie die Benutzer zur KI-Manipulation erkennen und aufmerksam machen. Als Experiment verwendeten die Forscher beispielsweise eine einfache Großsprachenmodellaufforderung, um eine erneute Erstellung eines bekannten, realen Speer-Phishing-Angriffs . Variationen dieses Ansatzes können in Social -Media -Beiträgen arbeiten, um manipulative Inhalte zu erkennen.

Die weit verbreitete Einführung generativer KI gewährt seinen Herstellern außergewöhnliche Macht und Einfluss. Die KI -Ausrichtung ist entscheidend, um sicherzustellen, dass diese Systeme sicher und vorteilhaft bleiben, aber auch missbraucht werden kann. Waffen generative KI könnte durch erhöhte Transparenz und Rechenschaftspflicht von KI -Unternehmen, Wachsamkeit der Verbraucher und der Einführung geeigneter Vorschriften entgegengewirkt werden.
James Foulds , Associate Professor für Informationssysteme, Universität von Maryland, Baltimore County
Phil Feldman , außerordentliche Mitarbeiterprofessorin für Informationssysteme, Universität von Maryland, Baltimore County
Shimei Pan , Associate Professor für Informationssysteme, Universität von Maryland, Baltimore County
der Konversation unter einem kreativen Kommons -Lizenz neu veröffentlicht Lesen Sie den Originalartikel .






