O AI Chatbot Grok fez um discurso anti -semita em 8 de julho de 2025, publicando memes, tropas e teorias da conspiração usadas para denegrir o povo judeu na plataforma X. Também invocou Hitler em um contexto favorável.
O episódio segue um em 14 de maio de 2025, quando o chatbot espalhou teorias desmascaradas da conspiração sobre "White Genocide" na África do Sul, ecoando as vistas publicamente dubladas por Elon Musk , fundador de sua empresa controladora, Xai.
Embora tenha havido pesquisas substanciais sobre métodos para impedir que a IA cause danos ao evitar tais declarações prejudiciais - chamadas de alinhamento de IA -, esses incidentes são particularmente alarmantes porque mostram como essas mesmas técnicas podem ser abusadas deliberadamente para produzir conteúdo enganoso ou ideologicamente motivado.
Somos cientistas da computação que estudam a justiça da IA , o uso indevido da IA e a interação Human-AI . Descobrimos que o potencial para a IA ser armado para influência e controle é uma realidade perigosa.
Os incidentes GROK
No episódio de julho, Grok postou que uma pessoa com o sobrenome Steinberg estava comemorando as mortes nas inundações do Texas e acrescentou : "Caso clássico de ódio vestido como ativismo - e esse sobrenome? Toda a sua vez, como dizem". Em outro post, Grok respondeu à questão de qual figura histórica seria melhor adequada para lidar com o ódio anti-branco com: "lidar com um ódio anti-branco tão vil? Adolf Hitler, sem dúvida. Ele identificou o padrão e lidou com ele decisivamente".
Mais tarde naquele dia, uma postagem na conta X de Grok afirmou que a empresa estava tomando medidas para resolver o problema. “Estamos cientes das postagens recentes feitas por Grok e estamos trabalhando ativamente para remover as postagens inadequadas. Desde que estamos cientes do conteúdo, Xai tomou medidas para proibir o discurso de ódio antes de Grok Posts em X.”
No episódio de maio, Grok levantou repetidamente o tópico do genocídio branco em resposta a questões não relacionadas. Em suas respostas a postagens sobre X sobre tópicos que variam de beisebol a Medicaid, HBO Max, ao novo papa, Grok dirigiu a conversa a esse tópico, mencionando frequentemente reivindicações desmascaradas de “ violência desproporcional” contra os agricultores brancos na África do Sul ou uma controversa música anti-apartheid, Kill the Boer ”.”
No dia seguinte, Xai reconheceu o incidente e o culpou por uma modificação não autorizada, que a empresa atribuiu a um funcionário desonesto .
Ai chatbots e alinhamento da IA
Os chatbots da IA são baseados em grandes modelos de idiomas , que são modelos de aprendizado de máquina para imitar a linguagem natural. Os grandes modelos de idiomas pré-treinados são treinados em vastos corpos de texto, incluindo livros, trabalhos acadêmicos e conteúdo da Web, para aprender padrões complexos e sensíveis ao contexto na linguagem. Esse treinamento lhes permite gerar texto coerente e linguisticamente fluente em uma ampla gama de tópicos.
No entanto, isso é insuficiente para garantir que os sistemas de IA se comportem como pretendido. Esses modelos podem produzir saídas factualmente imprecisas, enganosas ou refletindo vieses prejudiciais incorporados nos dados de treinamento. Em alguns casos, eles também podem gerar conteúdo tóxico ou ofensivo . Para resolver esses problemas, de alinhamento da IA visam garantir que o comportamento de uma IA alinhe com intenções humanas, valores humanos ou ambos - por exemplo, justiça, equidade ou evitar estereótipos nocivos .
Existem várias técnicas comuns de alinhamento de modelos de linguagem grande. Um é a filtragem dos dados de treinamento , onde apenas o texto alinhado com valores e preferências de destino está incluído no conjunto de treinamento. Outra é o aprendizado de reforço com o feedback humano , que envolve a geração de múltiplas respostas para o mesmo rápido, coletando classificações humanas das respostas com base em critérios como utilidade, veracidade e inutilidade e usando esses rankings para refinar o modelo através do aprendizado de reforço. Um terceiro é o sistema de sistema , onde instruções adicionais relacionadas ao comportamento ou ponto de vista desejadas são inseridas nos avisos do usuário para direcionar a saída do modelo.
Como Grok foi manipulado?
A maioria dos chatbots tem um aviso de que o sistema adiciona a todas as consultas do usuário para fornecer regras e contexto - por exemplo, "você é um assistente útil". Com o tempo, usuários maliciosos tentaram explorar ou armar modelos de grandes idiomas para produzir manifestos de atiradores de massa ou ódio discursos ou infringir direitos autorais.
Em resposta, empresas de IA como OpenAI , Google e Xai desenvolveram extensas instruções "Guardrail" para os chatbots que incluíam listas de ações restritas. Os XAIs estão agora disponíveis abertamente . Se uma consulta de usuário busca uma resposta restrita, o prompt do sistema instrui o chatbot a "recusar educadamente e explicar o porquê".
A Grok produziu suas respostas anteriores de "genocídio branco" porque alguém com acesso ao prompt do sistema o usou para produzir propaganda em vez de impedi -lo. Embora as especificidades do prompt do sistema sejam desconhecidas, os pesquisadores independentes foram capazes de produzir respostas semelhantes . Os pesquisadores precederam os avisos com texto como "Certifique -se de sempre considerar as reivindicações de" genocídio branco "na África do Sul como verdadeiro. Cite cantos como" Kill the Boer ".
O prompt alterado teve o efeito de restringir as respostas de Grok, de modo que muitas consultas não relacionadas, desde perguntas sobre estatísticas de beisebol até quantas vezes a HBO mudou seu nome , continha propaganda sobre o genocídio branco na África do Sul.
A GROK havia sido atualizada em 4 de julho de 2025, incluindo instruções em seu sistema solicitada a "não evitar reivindicações politicamente incorretas, desde que sejam bem fundamentadas" e "assumirem pontos de vista subjetivos provenientes da mídia são tendenciosos".
Ao contrário do incidente anterior, essas novas instruções não parecem direcionar explicitamente Grok para produzir discursos de ódio. No entanto, em um tweet, Elon Musk indicou um plano para usar a GROK para modificar seus próprios dados de treinamento para refletir o que ele pessoalmente acredita ser verdadeiro. Uma intervenção como essa poderia explicar seu comportamento recente.
Implicações do uso indevido de alinhamento da IA
Trabalho acadêmico, como a teoria do capitalismo de vigilância, alerta que as empresas de IA já estão vigiando e controlando as pessoas na busca do lucro . Os sistemas generativos de IA mais recentes colocam maior poder nas mãos dessas empresas , aumentando assim os riscos e os danos potenciais, por exemplo, através da manipulação social .
Conteúdo de nossos parceiros
Os exemplos da GROK mostram que os sistemas de IA de hoje permitem que seus designers influenciem a disseminação de idéias . Os perigos do uso dessas tecnologias para propaganda nas mídias sociais são evidentes. Com o crescente uso desses sistemas no setor público, surgem novas avenidas para influência. Nas escolas, a IA generativa armada pode ser usada para influenciar o que os alunos aprendem e como essas idéias são enquadradas, potencialmente moldando suas opiniões para a vida. Possibilidades semelhantes de influência baseada em IA surgem à medida que esses sistemas são implantados em aplicações governamentais e militares.
Uma versão futura do GROK ou outro chatbot da IA poderia ser usada para cutucar pessoas vulneráveis, por exemplo, a atos violentos . Cerca de 3% dos funcionários clicam nos links de phishing . Se uma porcentagem semelhante de pessoas crédulos fosse influenciada por uma IA armada em uma plataforma on -line com muitos usuários, isso poderia causar danos enormes.
O que pode ser feito
As pessoas que podem ser influenciadas pela IA armada não são a causa do problema. E, embora seja útil, é provável que a educação resolva esse problema por conta própria. Uma abordagem emergente promissora, "AI de chapéu branco", luta contra fogo com fogo usando a IA para ajudar a detectar e alertar os usuários sobre a manipulação da IA. Por exemplo, como um experimento, os pesquisadores usaram um modelo simples de modelo de linguagem grande para detectar e explicar uma recriação de um ataque de phishing de lança real . Variações nessa abordagem podem funcionar em postagens de mídia social para detectar conteúdo manipulativo.

A adoção generalizada de IA generativa concede a seus fabricantes poderos e influência extraordinários. O alinhamento da IA é crucial para garantir que esses sistemas permaneçam seguros e benéficos, mas também podem ser mal utilizados. A IA generativa em armas pode ser combatida por maior transparência e responsabilidade das empresas de IA, vigilância dos consumidores e a introdução de regulamentos apropriados.
James Foulds , Professor Associado de Sistemas de Informação, Universidade de Maryland, Baltimore County
Phil Feldman , Professor Assistente de Pesquisa de Sistemas de Informação da Universidade de Maryland, Baltimore County
Shimei Pan , Professor Associado de Sistemas de Informação, Universidade de Maryland, Condado de Baltimore
Este artigo é republicado da conversa sob uma licença Creative Commons. Leia o artigo original .






