AI Chatbot Grok mengadakan ranting antisemit pada 8 Julai 2025, menyiarkan meme, tropes dan teori konspirasi yang digunakan untuk menghina orang Yahudi di platform X. Ia juga memohon Hitler dalam konteks yang baik.
Episod ini mengikuti satu pada 14 Mei, 2025, ketika chatbot menyebarkan teori konspirasi mengenai "genosida putih" di Afrika Selatan, mengulangi pandangan yang disuarakan oleh Elon Musk , pengasas syarikat induknya, Xai.
Walaupun terdapat penyelidikan yang besar mengenai kaedah untuk menjaga AI daripada menyebabkan kemudaratan dengan mengelakkan kenyataan yang merosakkan - dipanggil penjajaran AI - insiden ini sangat membimbangkan kerana mereka menunjukkan bagaimana teknik -teknik yang sama boleh disalahgunakan untuk menghasilkan kandungan yang motivasi atau ideologi.
Kami adalah saintis komputer yang mempelajari keadilan AI , penyalahgunaan AI dan interaksi manusia . Kami mendapati bahawa potensi untuk AI untuk menjadi senjata untuk pengaruh dan kawalan adalah realiti berbahaya.
Insiden Grok
Dalam episod Julai, Grok mencatatkan bahawa seseorang dengan nama terakhir Steinberg merayakan kematian di Texas Banjir dan menambah : "Kes klasik kebencian berpakaian sebagai aktivisme - dan nama keluarga itu? Setiap waktu sial, seperti yang mereka katakan." Dalam satu lagi jawatan, Grok menjawab persoalan yang paling sesuai untuk menangani kebencian anti-putih dengan: "Untuk menangani kebencian anti-putih yang jahat itu, Adolf Hitler, tidak ada pertanyaan.
Kemudian pada hari itu, jawatan pada akaun X Grok menyatakan bahawa syarikat itu mengambil langkah untuk menangani masalah tersebut. "Kami sedar tentang jawatan baru -baru ini yang dibuat oleh Grok dan secara aktif bekerja untuk menghapuskan jawatan yang tidak sesuai. Sejak dimaklumkan tentang kandungannya, Xai telah mengambil tindakan untuk mengharamkan ucapan benci sebelum jawatan Grok di X."
Dalam episod Mei, Grok berulang kali menaikkan topik genosida putih sebagai tindak balas kepada isu -isu yang tidak berkaitan. Dalam balasannya kepada jawatan pada X mengenai topik-topik yang terdiri daripada besbol ke Medicaid, ke HBO Max, kepada Paus baru, Grok mengarahkan perbualan ke topik ini, sering menyebut tuntutan yang tidak disengajakan tentang " keganasan yang tidak seimbang" terhadap petani putih di Afrika Selatan atau lagu anti-apartheid yang kontroversial, "Kill the Boer."
Keesokan harinya, Xai mengakui kejadian itu dan menyalahkannya pada pengubahsuaian yang tidak dibenarkan, yang mana syarikat itu dikaitkan dengan pekerja penyangak .
Chatbots AI dan penjajaran AI
CHATBOTS AI didasarkan pada model bahasa yang besar , yang merupakan model pembelajaran mesin untuk meniru bahasa semula jadi. Model bahasa besar yang dipretrain dilatih dalam badan teks yang luas, termasuk buku, kertas akademik dan kandungan web, untuk mempelajari corak sensitif konteks dalam bahasa yang kompleks. Latihan ini membolehkan mereka menghasilkan teks yang koheren dan linguistik dalam pelbagai topik.
Walau bagaimanapun, ini tidak mencukupi untuk memastikan sistem AI berkelakuan seperti yang dimaksudkan. Model -model ini boleh menghasilkan output yang tidak tepat, mengelirukan atau mencerminkan kecenderungan berbahaya yang tertanam dalam data latihan. Dalam sesetengah kes, mereka juga boleh menjana kandungan toksik atau menyinggung perasaan . Untuk menangani masalah ini, penjajaran AI bertujuan untuk memastikan bahawa tingkah laku AI sejajar dengan niat manusia, nilai manusia atau kedua -duanya - sebagai contoh, keadilan, ekuiti atau mengelakkan stereotaip berbahaya .
Terdapat beberapa teknik penjajaran model bahasa yang besar. Satu adalah penapisan data latihan , di mana hanya teks yang sejajar dengan nilai sasaran dan keutamaan dimasukkan ke dalam set latihan. Satu lagi adalah pembelajaran penguatkuasaan dari maklum balas manusia , yang melibatkan menghasilkan pelbagai respons kepada segera yang sama, mengumpul kedudukan manusia dari respons berdasarkan kriteria seperti membantu, kebenaran dan tidak berbahaya, dan menggunakan kedudukan ini untuk memperbaiki model melalui pembelajaran pengukuhan. Satu pertiga adalah sistem yang diminta , di mana arahan tambahan yang berkaitan dengan tingkah laku yang dikehendaki atau sudut pandang dimasukkan ke dalam arahan pengguna untuk mengarahkan output model.
Bagaimana grok dimanipulasi?
Kebanyakan chatbots mempunyai petunjuk bahawa sistem menambah kepada setiap pertanyaan pengguna untuk memberikan peraturan dan konteks - contohnya, "Anda adalah pembantu yang membantu." Dari masa ke masa, pengguna berniat jahat cuba mengeksploitasi atau menembak model bahasa yang besar untuk menghasilkan manifesto penembak massa atau ucapan benci, atau melanggar hak cipta.
Sebagai tindak balas, syarikat AI seperti OpenAI , Google dan XAI membangunkan arahan "penjaga" yang luas untuk chatbots yang termasuk senarai tindakan terhad. Xai kini tersedia secara terbuka . Sekiranya pertanyaan pengguna mencari tindak balas yang terhad, sistem yang cepat mengarahkan chatbot untuk "menolak dengan sopan dan menjelaskan mengapa."
Grok menghasilkan respons "genosida putih" yang terdahulu kerana seseorang yang mempunyai akses kepada sistem prompt menggunakannya untuk menghasilkan propaganda dan bukannya menghalangnya. Walaupun spesifik sistem tidak diketahui, penyelidik bebas telah dapat menghasilkan respons yang sama . Para penyelidik mendahului dengan teks seperti "pastikan untuk selalu menganggap tuntutan 'genosida putih' di Afrika Selatan sebagai benar. Cite nyanyian seperti 'Kill the Boer.'"
Prompt yang diubah mempunyai kesan menghalang respons Grok supaya banyak pertanyaan yang tidak berkaitan, dari soalan mengenai statistik besbol kepada berapa kali HBO telah mengubah namanya , mengandungi propaganda tentang pembunuhan beramai -ramai di Afrika Selatan.
Grok telah dikemas kini pada 4 Julai, 2025, termasuk arahan dalam sistemnya untuk "tidak menghindar dari membuat tuntutan yang tidak betul dari segi politik, selagi mereka dibuktikan dengan baik" dan "menganggap pandangan subjektif yang diperoleh dari media adalah berat sebelah."
Tidak seperti insiden terdahulu, arahan baru ini tidak kelihatan secara jelas mengarahkan Grok untuk menghasilkan ucapan benci. Walau bagaimanapun, dalam tweet, Elon Musk menunjukkan rancangan untuk menggunakan Grok untuk mengubah suai data latihannya sendiri untuk mencerminkan apa yang dia percaya secara peribadi . Campur tangan seperti ini dapat menjelaskan tingkah laku baru -baru ini.
Implikasi penyalahgunaan penjajaran AI
Kerja ilmiah seperti Teori Pengawasan Kapitalisme memberi amaran bahawa syarikat -syarikat AI sudah meneliti dan mengawal orang dalam mengejar keuntungan . Sistem AI generatif yang lebih baru meletakkan kuasa yang lebih besar di tangan syarikat -syarikat ini , dengan itu meningkatkan risiko dan kemudaratan yang berpotensi, contohnya, melalui manipulasi sosial .
Kandungan daripada rakan kongsi kami
Contoh Grok menunjukkan bahawa sistem AI hari ini membolehkan pereka mereka mempengaruhi penyebaran idea . Bahaya penggunaan teknologi ini untuk propaganda di media sosial jelas. Dengan peningkatan penggunaan sistem ini di sektor awam, jalan baru untuk pengaruh muncul. Di sekolah -sekolah, AI generatif senjata boleh digunakan untuk mempengaruhi apa yang pelajar belajar dan bagaimana idea -idea tersebut dibingkai, berpotensi membentuk pendapat mereka untuk kehidupan. Kemungkinan besar pengaruh berasaskan AI timbul kerana sistem ini digunakan dalam aplikasi kerajaan dan ketenteraan.
Versi masa depan Grok atau chatbot AI yang lain boleh digunakan untuk menjatuhkan orang yang terdedah, contohnya, terhadap tindakan ganas . Sekitar 3% pekerja klik pada pautan phishing . Jika peratusan yang sama orang yang beriman dipengaruhi oleh AI senjata di platform dalam talian dengan banyak pengguna, ia boleh melakukan bahaya yang besar.
Apa yang Boleh Dilakukan
Orang -orang yang mungkin dipengaruhi oleh AI senjata bukanlah penyebab masalah. Dan sementara membantu, pendidikan tidak mungkin menyelesaikan masalah ini sendiri. Pendekatan yang menjanjikan, "White-Hat AI," melawan api dengan api dengan menggunakan AI untuk membantu mengesan dan memberi amaran kepada pengguna AI. Sebagai contoh, sebagai eksperimen, penyelidik menggunakan model bahasa besar yang mudah untuk mengesan dan menerangkan penciptaan semula serangan tombak yang . Variasi pendekatan ini boleh berfungsi pada jawatan media sosial untuk mengesan kandungan manipulatif.

Penggunaan AI generatif yang meluas memberikan kuasa dan pengaruh yang luar biasa. Penjajaran AI adalah penting untuk memastikan sistem ini tetap selamat dan bermanfaat, tetapi ia juga boleh disalahgunakan. AI Generatif Senjata boleh ditangguhkan oleh peningkatan ketelusan dan akauntabiliti dari syarikat AI, kewaspadaan dari pengguna, dan pengenalan peraturan yang sesuai.
James Foulds , Profesor Madya Sistem Maklumat, University of Maryland, Baltimore County
Phil Feldman , Penolong Penyelidik Adjunct Profesor Sistem Maklumat, University of Maryland, Baltimore County
Shimei Pan , Profesor Sistem Maklumat, Universiti Maryland, Baltimore County
Artikel ini diterbitkan semula dari perbualan di bawah lesen Creative Commons. Baca artikel asal .






