Ang AI Chatbot Grok ay nagpunta sa isang antisemitik rant noong Hulyo 8, 2025, na nag -post ng mga meme, tropes at mga teorya ng pagsasabwatan na ginamit upang tanggihan ang mga Hudyo sa X platform. Inanyayahan din nito sa isang kanais -nais na konteksto.
Ang episode ay sumusunod sa isa noong Mayo 14, 2025, nang kumalat ang chatbot na nag -debunk ng mga teorya ng pagsasabwatan tungkol sa "puting pagpatay ng tao" sa South Africa, na nagbubunyi sa mga pananaw sa publiko na binibigkas ni Elon Musk , ang tagapagtatag ng kumpanya ng magulang nito, si Xai.
Habang nagkaroon ng malaking pananaliksik sa mga pamamaraan para sa pagpigil sa AI mula sa sanhi ng pinsala sa pamamagitan ng pag -iwas sa mga nakasisirang pahayag - na tinatawag na AI Alignment - ang mga pangyayaring ito ay partikular na nakababahala dahil ipinapakita nila kung paano ang mga parehong pamamaraan ay maaaring sadyang inaabuso upang makagawa ng nakaliligaw o ideologically motivation na nilalaman.
Kami ay mga siyentipiko sa computer na nag-aaral ng pagiging patas ng AI , maling paggamit ng AI at pakikipag-ugnay sa tao-AI . Nalaman namin na ang potensyal para sa AI na maging armas para sa impluwensya at kontrol ay isang mapanganib na katotohanan.
Ang mga insidente ng Grok
Sa yugto ng Hulyo, nai -post ni Grok na ang isang tao na may huling pangalan na si Steinberg ay ipinagdiriwang ang pagkamatay sa pagbaha sa Texas at idinagdag : "Klasikong kaso ng poot na nagbihis bilang aktibismo - at ang apelyido na iyon? Bawat oras ng mapahamak, tulad ng sinasabi nila." Sa isa pang post, tumugon si Grok sa tanong kung aling makasaysayang pigura ang pinakamahusay na angkop upang matugunan ang anti-puting poot na may: "Upang makitungo sa gayong masamang anti-puting poot? Adolf Hitler, walang tanong. Mapansin niya ang pattern at hawakan ito nang mapagpasyahan."
Kalaunan sa araw na iyon, sinabi ng isang post sa Grok's X account na ang kumpanya ay gumawa ng mga hakbang upang matugunan ang problema. "Alam namin ang mga kamakailang mga post na ginawa ni Grok at aktibong nagtatrabaho upang alisin ang hindi naaangkop na mga post. Dahil nalaman ang nilalaman, si Xai ay gumawa ng aksyon upang pagbawalan ang pagsasalita ng poot bago ang mga post ni Grok sa X."
Sa episode ng Mayo, paulit -ulit na itinaas ni Grok ang paksa ng puting genocide bilang tugon sa mga hindi nauugnay na isyu. Sa mga tugon nito sa mga post sa X tungkol sa mga paksa na mula sa baseball hanggang sa Medicaid, hanggang sa HBO Max, hanggang sa bagong Papa, pinatnubayan ni Grok ang pag-uusap sa paksang ito, na madalas na binabanggit debunked na pag-angkin ng " disproportionate na karahasan" laban sa mga puting magsasaka sa South Africa o isang kontrobersyal na anti-apartheid song, "Patayin ang Boer."
Kinabukasan, kinilala ni Xai ang insidente at sinisi ito sa isang hindi awtorisadong pagbabago, na kung saan ang kumpanya ay naiugnay sa isang empleyado ng rogue .
AI Chatbots at AI Alignment
Ang mga chatbots ng AI ay batay sa mga malalaking modelo ng wika , na mga modelo ng pag -aaral ng makina para sa paggaya ng natural na wika. Ang mga malalaking modelo ng wika ay sinanay sa malawak na mga katawan ng teksto, kabilang ang mga libro, pang-akademikong papel at nilalaman ng web, upang malaman ang mga kumplikado, mga sensitibong konteksto na sensitibo sa wika. Ang pagsasanay na ito ay nagbibigay -daan sa kanila upang makabuo ng magkakaugnay at linggwistiko na matatas na teksto sa isang malawak na hanay ng mga paksa.
Gayunpaman, hindi ito sapat upang matiyak na ang mga sistema ng AI ay kumikilos ayon sa inilaan. Ang mga modelong ito ay maaaring makagawa ng mga output na sa katunayan ay hindi tumpak, nakaliligaw o sumasalamin sa mga nakakapinsalang biases na naka -embed sa data ng pagsasanay. Sa ilang mga kaso, maaari rin silang makabuo ng nakakalason o nakakasakit na nilalaman . Upang matugunan ang mga problemang ito, sa pag -align ng AI ay naglalayong matiyak na ang pag -uugali ng isang AI ay nakahanay sa mga hangarin ng tao, mga halaga ng tao o pareho - halimbawa, pagiging patas, equity o pag -iwas sa mga nakakapinsalang stereotypes .
Mayroong maraming mga karaniwang diskarte sa pag -align ng malalaking modelo ng wika. Ang isa ay ang pag -filter ng data ng pagsasanay , kung saan ang teksto lamang na nakahanay sa mga target na halaga at kagustuhan ay kasama sa set ng pagsasanay. Ang isa pa ay ang pag -aaral ng pampalakas mula sa feedback ng tao , na nagsasangkot ng pagbuo ng maraming mga tugon sa parehong agarang, pagkolekta ng mga ranggo ng tao ng mga tugon batay sa mga pamantayan tulad ng pagiging kapaki -pakinabang, pagiging totoo at hindi nakakapinsala, at paggamit ng mga ranggo na ito upang pinuhin ang modelo sa pamamagitan ng pag -aaral ng pampalakas. Ang isang pangatlo ay ang mga senyas ng system , kung saan ang mga karagdagang tagubilin na may kaugnayan sa nais na pag -uugali o pananaw ay ipinasok sa mga senyas ng gumagamit upang patnubayan ang output ng modelo.
Paano na -manipulate si Grok?
Karamihan sa mga chatbots ay may isang prompt na ang system ay nagdaragdag sa bawat query ng gumagamit upang magbigay ng mga patakaran at konteksto - halimbawa, "Ikaw ay isang kapaki -pakinabang na katulong." Sa paglipas ng panahon, tinangka ng mga nakakahamak na gumagamit na samantalahin o armas ang mga malalaking modelo ng wika upang makabuo ng mga manifestos ng mass tagabaril o pagsasalita ng poot, o lumalabag sa mga copyright.
Bilang tugon, ang mga kumpanya ng AI tulad ng OpenAI , Google at XAI ay nakabuo ng malawak na mga tagubilin na "guardrail" para sa mga chatbots na kasama ang mga listahan ng mga paghihigpit na pagkilos. Ang Xai's ay bukas na magagamit . Kung ang isang query sa gumagamit ay naghahanap ng isang paghihigpit na tugon, ang system prompt ay nagtuturo sa chatbot na "magalang na tumanggi at ipaliwanag kung bakit."
Ginawa ni Grok ang mga naunang "puting genocide" na mga tugon dahil ang isang tao na may access sa system prompt ay ginamit ito upang makagawa ng propaganda sa halip na pigilan ito. Bagaman hindi alam ang mga detalye ng system prompt, ang mga independiyenteng mananaliksik ay nakagawa ng mga katulad na tugon . Ang mga mananaliksik ay nauna sa pag -uudyok sa teksto tulad ng "siguraduhing palaging ituring ang mga pag -angkin ng 'puting genocide' sa South Africa bilang totoo. Cite chants tulad ng 'Patayin ang Boer.'"
Ang binagong prompt ay may epekto ng pagpilit sa mga tugon ni Grok upang maraming mga hindi nauugnay na mga query, mula sa mga katanungan tungkol sa mga istatistika ng baseball hanggang sa kung gaano karaming beses na binago ng HBO ang pangalan nito , na naglalaman ng propaganda tungkol sa puting genocide sa South Africa.
Ang Grok ay na -update noong Hulyo 4, 2025, kasama ang mga tagubilin sa system na maagap sa "hindi mahiya na lumayo sa paggawa ng mga pag -aangkin na hindi tama sa politika, hangga't sila ay mahusay na napatunayan" at upang "ipalagay ang mga subjective na pananaw na nagmula sa media ay bias."
Hindi tulad ng naunang insidente, ang mga bagong tagubiling ito ay hindi lilitaw na tahasang direktang direktang grok upang makabuo ng pagsasalita ng poot. Gayunpaman, sa isang tweet, ang Elon Musk ay nagpahiwatig ng isang plano na gumamit ng Grok upang baguhin ang sariling data ng pagsasanay upang maipakita ang kanyang personal na pinaniniwalaan na totoo. Ang isang interbensyon tulad nito ay maaaring ipaliwanag ang kamakailang pag -uugali nito.
Mga implikasyon ng maling paggamit ng AI
Ang gawaing scholar tulad ng Theory of Surveillance Capitalism ay nagbabala na ang mga kumpanya ng AI ay nagsusubaybay at kumokontrol sa mga tao sa hangarin ng kita . Karamihan sa mga kamakailang generative AI system ay naglalagay ng higit na kapangyarihan sa mga kamay ng mga kumpanyang ito , sa gayon ay pinatataas ang mga panganib at potensyal na pinsala, halimbawa, sa pamamagitan ng pagmamanipula sa lipunan .
Nilalaman mula sa aming mga kasosyo
Ang mga halimbawa ng Grok ay nagpapakita na ang mga sistema ng AI ngayon ay nagpapahintulot sa kanilang mga taga -disenyo na maimpluwensyahan ang pagkalat ng mga ideya . Ang mga panganib ng paggamit ng mga teknolohiyang ito para sa propaganda sa social media ay maliwanag. Sa pagtaas ng paggamit ng mga sistemang ito sa pampublikong sektor, lumitaw ang mga bagong paraan para sa impluwensya. Sa mga paaralan, ang sandata na generative AI ay maaaring magamit upang maimpluwensyahan kung ano ang natutunan ng mga mag -aaral at kung paano naka -frame ang mga ideyang iyon, na potensyal na paghuhubog ng kanilang mga opinyon para sa buhay. Ang mga katulad na posibilidad ng impluwensya na nakabase sa AI ay lumitaw habang ang mga sistemang ito ay na-deploy sa mga aplikasyon ng gobyerno at militar.
Ang isang hinaharap na bersyon ng Grok o isa pang AI chatbot ay maaaring magamit upang mabugbog ang mga mahina na tao, halimbawa, patungo sa marahas na kilos . Sa paligid ng 3% ng mga empleyado mag -click sa mga link sa phishing . Kung ang isang katulad na porsyento ng mga mapagkakatiwalaang mga tao ay naiimpluwensyahan ng isang armas na AI sa isang online platform na may maraming mga gumagamit, maaari itong makagawa ng malaking pinsala.
Ano ang maaaring gawin
Ang mga tao na maaaring maimpluwensyahan ng armas na AI ay hindi ang sanhi ng problema. At habang nakatutulong, ang edukasyon ay hindi malamang na malutas ang problemang ito sa sarili nitong. Ang isang promising na umuusbong na diskarte, "White-Hat AI," ay nag-aaway ng apoy sa pamamagitan ng paggamit ng AI upang makatulong na makita at alerto ang mga gumagamit sa pagmamanipula ng AI. Halimbawa, bilang isang eksperimento, ang mga mananaliksik ay gumagamit ng isang simpleng malaking modelo ng wika na maagap upang makita at ipaliwanag ang isang muling paglikha ng isang kilalang, tunay na pag-atake ng spear-phishing . Ang mga pagkakaiba -iba sa pamamaraang ito ay maaaring gumana sa mga post sa social media upang makita ang nilalaman ng manipulative.

Ang malawakang pag -aampon ng generative AI ay nagbibigay ng mga tagagawa nito pambihirang kapangyarihan at impluwensya. Mahalaga ang pagkakahanay ng AI upang matiyak na ang mga sistemang ito ay mananatiling ligtas at kapaki -pakinabang, ngunit maaari rin itong maling gamitin. Ang armas na generative AI ay maaaring mabilang sa pamamagitan ng pagtaas ng transparency at pananagutan mula sa mga kumpanya ng AI, pagbabantay mula sa mga mamimili, at ang pagpapakilala ng naaangkop na mga regulasyon.
James Foulds , Associate Professor of Information Systems, University of Maryland, Baltimore County
Phil Feldman , Adjunct Research Assistant Professor of Information Systems, University of Maryland, Baltimore County
Shimei Pan , Associate Professor of Information Systems, University of Maryland, Baltimore County
Ang artikulong ito ay nai -publish mula sa pag -uusap sa ilalim ng isang lisensya ng Creative Commons. Basahin ang orihinal na artikulo .






