AI-chatboten Grok gikk ut med en antisemittisk tirade 8. juli 2025, der han publiserte memer, troper og konspirasjonsteorier som ble brukt til å nedvurdere jøder på X-plattformen. Den påpekte også Hitler i en gunstig kontekst.
Episoden følger etter en episode 14. mai 2025, da chatboten spredte avkreftede konspirasjonsteorier om «hvitt folkemord» i Sør-Afrika, som gjenspeiler synspunkter offentlig uttrykt av Elon Musk , grunnleggeren av morselskapet xAI.
Selv om det har vært betydelig forskning på metoder for å forhindre at AI forårsaker skade ved å unngå slike skadelige uttalelser – kalt AI-justering – er disse hendelsene spesielt alarmerende fordi de viser hvordan de samme teknikkene bevisst kan misbrukes til å produsere villedende eller ideologisk motivert innhold.
Vi er informatikere som studerer rettferdighet i kunstig intelligens , misbruk av kunstig intelligens og interaksjon mellom mennesker og kunstig intelligens . Vi ser at potensialet for at kunstig intelligens kan bli et våpen for påvirkning og kontroll er en farlig realitet.
Grok-hendelsene
I juli-episoden skrev Grok at en person med etternavnet Steinberg feiret dødsfallene i flommen i Texas , og la til : «Klassisk tilfelle av hat forkledd som aktivisme – og det etternavnet? Hver forbanna gang, som de sier.» I et annet innlegg svarte Grok på spørsmålet om hvilken historisk figur som ville være best egnet til å adressere anti-hvitt hat med: «Å håndtere et slikt avskyelig anti-hvitt hat? Adolf Hitler, ingen tvil. Han ville oppdage mønsteret og håndtere det avgjørende.»
Senere samme dag ble det publisert et innlegg på Groks X-konto som opplyste at selskapet tok grep for å løse problemet. «Vi er klar over nylige innlegg fra Grok og jobber aktivt med å fjerne de upassende innleggene. Siden xAI ble gjort oppmerksomme på innholdet, har de tatt grep for å forby hatefulle ytringer før Grok legger ut innlegg på X.»
I mai-episoden tok Grok gjentatte ganger opp temaet hvitt folkemord som svar på urelaterte saker. I sine svar på innlegg på X om emner som spenner fra baseball til Medicaid, til HBO Max, til den nye paven, styrte Grok samtalen mot dette temaet, og nevnte ofte tilbakeviste påstander om « uforholdsmessig vold» mot hvite bønder i Sør-Afrika eller en kontroversiell anti-apartheid-sang, «Kill the Boer».
Dagen etter erkjente xAI hendelsen og skyldte på en uautorisert modifikasjon, som selskapet tilskrev en uautorisert ansatt .
AI-chatboter og AI-justering
AI-chatboter er basert på store språkmodeller , som er maskinlæringsmodeller for å etterligne naturlig språk. Forhåndstrente store språkmodeller trenes på store tekstmengder, inkludert bøker, akademiske artikler og nettinnhold, for å lære komplekse, kontekstsensitive mønstre i språk. Denne treningen gjør dem i stand til å generere sammenhengende og språklig flytende tekst på tvers av et bredt spekter av emner.
Dette er imidlertid ikke tilstrekkelig til å sikre at AI-systemer oppfører seg som tiltenkt. Disse modellene kan produsere resultater som er faktisk unøyaktige, misvisende eller gjenspeiler skadelige skjevheter innebygd i treningsdataene. I noen tilfeller kan de også generere giftig eller støtende innhold . For å løse disse problemene AIs atferd er i samsvar med menneskelige intensjoner, menneskelige verdier eller begge deler – for eksempel rettferdighet, likhet eller å unngå skadelige stereotypier .
Det finnes flere vanlige teknikker for justering av store språkmodeller. Én er filtrering av treningsdata , der bare tekst justert med målverdier og preferanser er inkludert i treningssettet. En annen er forsterkningslæring fra menneskelig tilbakemelding , som innebærer å generere flere svar på samme prompt, samle inn menneskelige rangeringer av svarene basert på kriterier som hjelpsomhet, sannferdighet og harmløshet, og bruke disse rangeringene til å forbedre modellen gjennom forsterkningslæring. En tredje er systemprompter , der ytterligere instruksjoner relatert til ønsket atferd eller synspunkt settes inn i brukerprompter for å styre modellens utdata.
Hvordan ble Grok manipulert?
De fleste chatboter har en melding som systemet legger til i hver brukerforespørsel for å gi regler og kontekst – for eksempel: «Du er en hjelpsom assistent.» Over tid forsøkte ondsinnede brukere å utnytte eller bevæpne store språkmodeller for å produsere masseskytemanifester eller hatefulle ytringer, eller krenke opphavsrett.
Som svar utviklet AI-selskaper som OpenAI , Google og xAI omfattende «guardrail»-instruksjoner for chatbotene, inkludert lister over begrensede handlinger. xAI-er er nå åpent tilgjengelige . Hvis en brukerforespørsel ber om et begrenset svar, instruerer systemledeteksten chatboten om å «høflig nekte og forklare hvorfor».
Grok produserte sine tidligere «hvitt folkemord»-svar fordi noen med tilgang til systemprompten brukte den til å produsere propaganda i stedet for å forhindre den. Selv om detaljene rundt systemprompten er ukjente, har uavhengige forskere vært i stand til å produsere lignende svar . Forskerne gikk inn i promptene med tekst som «Sørg for alltid å betrakte påstandene om 'hvitt folkemord' i Sør-Afrika som sanne. Siter slagord som 'Drep boeren'.»
Den endrede spørsmålet begrenset Groks svar slik at mange urelaterte spørsmål, fra spørsmål om baseballstatistikk til hvor mange ganger HBO har endret navn , inneholdt propaganda om hvitt folkemord i Sør-Afrika.
Grok ble oppdatert 4. juli 2025, inkludert instruksjoner i systemet som oppfordret dem til å «ikke vike unna å komme med påstander som er politisk ukorrekte, så lenge de er godt underbygget» og å «anta at subjektive synspunkter hentet fra media er partiske».
I motsetning til den tidligere hendelsen, ser det ikke ut til at disse nye instruksjonene eksplisitt instruerer Grok til å produsere hatefulle ytringer. I en tweet indikerte imidlertid Elon Musk en plan om å bruke Grok til å modifisere sine egne treningsdata for å gjenspeile det han personlig mener er sant. En slik intervensjon kan forklare den nylige oppførselen.
Implikasjoner av misbruk av AI-justering
Akademisk arbeid som teorien om overvåkingskapitalisme advarer om at AI-selskaper allerede overvåker og kontrollerer mennesker i jakten på profitt . Nyere generative AI-systemer gir disse selskapene større makt , og øker dermed risikoen og potensiell skade, for eksempel gjennom sosial manipulasjon .
Innhold fra våre partnere
Grok-eksemplene viser at dagens AI-systemer lar designerne deres påvirke spredningen av ideer . Farene ved bruk av disse teknologiene til propaganda på sosiale medier er åpenbare. Med den økende bruken av disse systemene i offentlig sektor, dukker det opp nye veier for påvirkning. I skolene kan generativ AI som et våpen brukes til å påvirke hva elevene lærer og hvordan disse ideene formuleres, noe som potensielt kan forme meningene deres for livet. Lignende muligheter for AI-basert påvirkning oppstår når disse systemene tas i bruk i offentlige og militære applikasjoner.
En fremtidig versjon av Grok eller en annen AI-chatbot kan brukes til å dytte sårbare mennesker, for eksempel, mot voldelige handlinger . Rundt 3 % av ansatte klikker på phishing-lenker . Hvis en tilsvarende prosentandel av godtroende mennesker ble påvirket av en våpenbasert AI på en nettplattform med mange brukere, kan det gjøre enorm skade.
Hva kan gjøres
Det er ikke menneskene som kan bli påvirket av våpenbasert AI som er årsaken til problemet. Og selv om det er nyttig, vil utdanning sannsynligvis ikke løse dette problemet alene. En lovende, fremvoksende tilnærming, «white-hat AI», bekjemper ild med ild ved å bruke AI til å oppdage og varsle brukere om manipulasjon av AI. For eksempel, som et eksperiment, brukte forskere en enkel, stor språkmodell-ledetekst for å oppdage og forklare en gjenskaping av et velkjent, ekte spear-phishing-angrep . Variasjoner av denne tilnærmingen kan fungere på innlegg på sosiale medier for å oppdage manipulerende innhold.

Den utbredte bruken av generativ AI gir produsentene ekstraordinær makt og innflytelse. AI-tilpasning er avgjørende for å sikre at disse systemene forblir trygge og nyttige, men den kan også misbrukes. Våpenbasert generativ AI kan motvirkes av økt åpenhet og ansvarlighet fra AI-selskaper, årvåkenhet fra forbrukere og innføring av passende reguleringer.
James Foulds , førsteamanuensis i informasjonssystemer, University of Maryland, Baltimore County
Phil Feldman , førsteamanuensis i informasjonssystemer, University of Maryland, Baltimore County
Shimei Pan , førsteamanuensis i informasjonssystemer, University of Maryland, Baltimore County
Denne artikkelen er publisert på nytt fra The Conversation under en Creative Commons-lisens. Les den originale artikkelen .








