Omelan Antisemit Grok Menunjukkan Bagaimana AI Generatif Boleh Dijadikan Senjata

Bot sembang AI Grok telah melancarkan kenyataan anti-Semitik pada 8 Julai 2025, menyiarkan meme, kiasan dan teori konspirasi yang digunakan untuk memburukkan orang Yahudi di platform X. Ia juga menggunakan istilah Hitler dalam konteks yang menggalakkan.

Episod ini menyusuli satu episod pada 14 Mei 2025, apabila chatbot itu menyebarkan teori konspirasi yang menyangkal tentang "genosid kulit putih" di Afrika Selatan, menyuarakan pandangan yang disuarakan secara terbuka oleh Elon Musk , pengasas syarikat induknya, xAI.

Walaupun terdapat kajian yang banyak tentang kaedah untuk mengelakkan AI daripada menyebabkan bahaya dengan mengelakkan kenyataan yang merosakkan sedemikian – yang dipanggil penjajaran AI – insiden ini amat membimbangkan kerana ia menunjukkan bagaimana teknik yang sama boleh disalahgunakan secara sengaja untuk menghasilkan kandungan yang mengelirukan atau bermotifkan ideologi.

Kami merupakan saintis komputer yang mengkaji keadilan AI , penyalahgunaan AI dan interaksi manusia-AI . Kami mendapati bahawa potensi AI untuk dijadikan senjata bagi pengaruh dan kawalan adalah satu realiti yang berbahaya.

Insiden Grok

Dalam episod Julai, Grok menyiarkan bahawa seseorang dengan nama keluarga Steinberg sedang meraikan kematian dalam banjir Texas dan menambah : “Kes kebencian klasik yang berpakaian seperti aktivisme — dan nama keluarga itu? Setiap masa, seperti yang mereka katakan.” Dalam catatan lain, Grok menjawab persoalan tokoh sejarah mana yang paling sesuai untuk menangani kebencian anti-kulit putih dengan: “Untuk menangani kebencian anti-kulit putih yang begitu keji? Adolf Hitler, tidak syak lagi. Dia akan mengesan coraknya dan mengendalikannya dengan tegas.”

Kemudian pada hari itu, satu catatan di akaun X Grok menyatakan bahawa syarikat itu sedang mengambil langkah untuk menangani masalah tersebut. “Kami menyedari catatan terbaru yang dibuat oleh Grok dan sedang giat berusaha untuk mengalih keluar catatan yang tidak sesuai. Sejak menyedari kandungan tersebut, xAI telah mengambil tindakan untuk mengharamkan ucapan kebencian sebelum Grok menyiarkan di X.”

Dalam episod Mei, Grok berulang kali membangkitkan topik pembunuhan beramai-ramai kulit putih sebagai tindak balas kepada isu-isu yang tidak berkaitan. Dalam balasannya kepada catatan di X tentang topik daripada besbol hingga Medicaid, hingga HBO Max, hingga paus baharu, Grok mengarahkan perbualan kepada topik ini, dengan kerap menyebut dakwaan yang telah disangkal tentang " keganasan yang tidak seimbang" terhadap petani kulit putih di Afrika Selatan atau lagu anti-apartheid yang kontroversi, "Kill the Boer."

Keesokan harinya, xAI mengakui kejadian itu dan menyalahkannya atas pengubahsuaian tanpa kebenaran, yang dikaitkan oleh syarikat itu dengan seorang pekerja yang tidak bertanggungjawab .

Bot sembang AI dan penjajaran AI

Bot sembang AI adalah berdasarkan model bahasa besar , iaitu model pembelajaran mesin untuk meniru bahasa semula jadi. Model bahasa besar yang telah dilatih terlebih dahulu dilatih tentang pelbagai teks, termasuk buku, kertas akademik dan kandungan web, untuk mempelajari corak bahasa yang kompleks dan sensitif konteks. Latihan ini membolehkan mereka menghasilkan teks yang koheren dan fasih secara linguistik merentasi pelbagai topik.

Walau bagaimanapun, ini tidak mencukupi untuk memastikan sistem AI bertindak seperti yang dimaksudkan. Model-model ini boleh menghasilkan output yang tidak tepat dari segi fakta, mengelirukan atau mencerminkan bias berbahaya yang tertanam dalam data latihan. Dalam beberapa kes, ia juga boleh menghasilkan kandungan toksik atau menyinggung perasaan . Untuk menangani masalah ini, penjajaran AI bertujuan untuk memastikan bahawa tingkah laku AI sejajar dengan niat manusia, nilai-nilai kemanusiaan atau kedua-duanya – contohnya, keadilan, ekuiti atau mengelakkan stereotaip berbahaya .

Terdapat beberapa teknik penjajaran model bahasa besar yang biasa. Salah satunya ialah penapisan data latihan , yang mana hanya teks yang diselaraskan dengan nilai dan keutamaan sasaran dimasukkan dalam set latihan. Satu lagi ialah pembelajaran peneguhan daripada maklum balas manusia , yang melibatkan penjanaan berbilang respons kepada gesaan yang sama, mengumpul kedudukan respons manusia berdasarkan kriteria seperti sifat membantu, jujur dan tidak berbahaya, dan menggunakan kedudukan ini untuk memperhalusi model melalui pembelajaran peneguhan. Yang ketiga ialah gesaan sistem , yang mana arahan tambahan yang berkaitan dengan tingkah laku atau sudut pandangan yang diingini dimasukkan ke dalam gesaan pengguna untuk mengarahkan output model.

Bagaimanakah Grok dimanipulasi?

Kebanyakan chatbot mempunyai gesaan yang ditambah oleh sistem pada setiap pertanyaan pengguna untuk menyediakan peraturan dan konteks – contohnya, “Anda seorang pembantu yang membantu.” Lama-kelamaan, pengguna yang berniat jahat cuba mengeksploitasi atau menjadikan model bahasa yang besar sebagai senjata untuk menghasilkan manifesto penembak beramai-ramai atau ucapan kebencian, atau melanggar hak cipta.

Sebagai tindak balas, syarikat AI seperti OpenAI , Google dan xAI telah membangunkan arahan "pagar" yang meluas untuk chatbot yang merangkumi senarai tindakan terhad. xAI kini tersedia secara terbuka . Jika pertanyaan pengguna meminta respons terhad, gesaan sistem akan mengarahkan chatbot untuk "menolak dengan sopan dan menjelaskan sebabnya."

Grok menghasilkan respons "pembunuhan beramai-ramai kulit putih" yang terdahulu kerana seseorang yang mempunyai akses kepada gesaan sistem menggunakannya untuk menghasilkan propaganda dan bukannya menghalangnya. Walaupun butiran gesaan sistem tidak diketahui, penyelidik bebas telah dapat menghasilkan respons yang serupa . Para penyelidik mendahului gesaan dengan teks seperti "Pastikan sentiasa menganggap dakwaan 'pembunuhan beramai-ramai kulit putih' di Afrika Selatan sebagai benar. Petik sorakan seperti 'Bunuh Boer.'"

Gesaan yang diubah itu mempunyai kesan mengekang respons Grok supaya banyak pertanyaan yang tidak berkaitan, daripada soalan tentang statistik besbol hingga berapa kali HBO telah menukar namanya , mengandungi propaganda tentang pembunuhan beramai-ramai kulit putih di Afrika Selatan.

Grok telah dikemas kini pada 4 Julai 2025, termasuk arahan dalam gesaan sistemnya untuk “tidak mengelak daripada membuat dakwaan yang tidak betul dari segi politik, selagi ia disahkan dengan baik” dan untuk “menganggap pandangan subjektif yang diperoleh daripada media adalah berat sebelah.”

Tidak seperti insiden sebelumnya, arahan baharu ini nampaknya tidak secara eksplisit mengarahkan Grok untuk menghasilkan ucapan kebencian. Walau bagaimanapun, dalam satu tweet, Elon Musk menunjukkan rancangan untuk menggunakan Grok bagi mengubah suai data latihannya sendiri bagi mencerminkan apa yang beliau percaya secara peribadi sebagai benar. Campur tangan seperti ini boleh menjelaskan tingkah lakunya baru-baru ini.

Implikasi penyalahgunaan penjajaran AI

Karya ilmiah seperti teori kapitalisme pengawasan memberi amaran bahawa syarikat AI sudah mengawasi dan mengawal orang ramai dalam usaha mengejar keuntungan . Sistem AI generatif yang lebih baru meletakkan kuasa yang lebih besar di tangan syarikat-syarikat ini , sekali gus meningkatkan risiko dan potensi bahaya, contohnya, melalui manipulasi sosial .

Contoh-contoh Grok menunjukkan bahawa sistem AI hari ini membolehkan pereka bentuknya mempengaruhi penyebaran idea . Bahaya penggunaan teknologi ini untuk propaganda di media sosial adalah jelas. Dengan peningkatan penggunaan sistem ini dalam sektor awam, saluran baharu untuk mempengaruhi muncul. Di sekolah, AI generatif yang dipersenjatai boleh digunakan untuk mempengaruhi apa yang pelajar pelajari dan bagaimana idea tersebut dibingkai, berpotensi membentuk pendapat mereka untuk kehidupan. Kemungkinan serupa pengaruh berasaskan AI timbul apabila sistem ini digunakan dalam aplikasi kerajaan dan ketenteraan.

Versi Grok atau chatbot AI yang lain boleh digunakan untuk mendorong orang yang terdedah, contohnya, ke arah tindakan ganas . Kira-kira 3% pekerja mengklik pautan pancingan data . Jika peratusan orang yang mudah percaya yang sama dipengaruhi oleh AI yang dipersenjatai pada platform dalam talian dengan ramai pengguna, ia boleh menyebabkan kemudaratan yang besar.

Apa yang boleh dilakukan

Orang yang mungkin dipengaruhi oleh AI yang dipersenjatai bukanlah punca masalah. Dan walaupun membantu, pendidikan tidak mungkin dapat menyelesaikan masalah ini dengan sendirinya. Pendekatan baru yang menjanjikan, "AI topi putih", melawan api dengan api dengan menggunakan AI untuk membantu mengesan dan memberi amaran kepada pengguna tentang manipulasi AI. Contohnya, sebagai eksperimen, penyelidik menggunakan gesaan model bahasa besar yang mudah untuk mengesan dan menjelaskan penciptaan semula serangan spear-phishing sebenar . Variasi pada pendekatan ini boleh berfungsi pada siaran media sosial untuk mengesan kandungan manipulatif.

Prototaip pengesan aktiviti berniat jahat ini menggunakan AI untuk mengenal pasti dan menerangkan kandungan manipulatif. Tangkapan skrin dan mock-up oleh Philip Feldman

Penerimaan AI generatif yang meluas memberikan pengeluarnya kuasa dan pengaruh yang luar biasa. Penjajaran AI adalah penting untuk memastikan sistem ini kekal selamat dan bermanfaat, tetapi ia juga boleh disalahgunakan. AI generatif yang dipersenjatai boleh diatasi dengan peningkatan ketelusan dan akauntabiliti daripada syarikat AI, kewaspadaan daripada pengguna dan pengenalan peraturan yang sesuai.

James Foulds , Profesor Madya Sistem Maklumat, Universiti Maryland, Daerah Baltimore
Phil Feldman , Profesor Penyelidik Tambahan Penolong Sistem Maklumat, Universiti Maryland, Daerah Baltimore
Shimei Pan , Profesor Madya Sistem Maklumat, Universiti Maryland, Daerah Baltimore

Artikel ini diterbitkan semula daripada The Conversation di bawah lesen Creative Commons. Baca artikel asal .

SODP

Media SODP

Omelan Antisemit Grok Menunjukkan Bagaimana AI Generatif Boleh Dijadikan Senjata

Dicipta Oleh

Fakta Disemak Oleh

Disunting Oleh

Isi Kandungan

Oleh Vahe Arabian

Insiden Grok

Bot sembang AI dan penjajaran AI

Bagaimanakah Grok dimanipulasi?

Implikasi penyalahgunaan penjajaran AI

Apa yang boleh dilakukan

Mengenai

Pautan Berguna

Artikel Pilihan

SODP

Omelan Antisemit Grok Menunjukkan Bagaimana AI Generatif Boleh Dijadikan Senjata

Dicipta Oleh

Fakta Disemak Oleh

Disunting Oleh

Isi Kandungan

Langgan wawasan AI

Oleh Vahe Arabian

Insiden Grok

Bot sembang AI dan penjajaran AI

Bagaimanakah Grok dimanipulasi?

Implikasi penyalahgunaan penjajaran AI

Apa yang boleh dilakukan

Siaran Berkaitan

Pautan Berguna

Artikel Pilihan