o chatbot de IA Grok fez um discurso antissemita , publicando memes, clichês e teorias da conspiração usados para denegrir o povo judeu na plataforma X. Ele também invocou Hitler em um contexto favorável.
O episódio sucede um ocorrido em 14 de maio de 2025, quando o chatbot disseminou teorias da conspiração desmentidas sobre um "genocídio branco" na África do Sul, ecoando opiniões expressas publicamente por Elon Musk , fundador da empresa controladora, a xAI.
Embora tenha havido pesquisas substanciais sobre métodos para impedir que a IA cause danos, evitando declarações prejudiciais – o que é chamado de alinhamento da IA –, esses incidentes são particularmente alarmantes porque mostram como essas mesmas técnicas podem ser deliberadamente usadas de forma abusiva para produzir conteúdo enganoso ou com motivação ideológica.
Somos cientistas da computação que estudam a equidade da IA , o uso indevido da IA e a interação humano-IA . Constatamos que o potencial da IA ser usada como arma para influenciar e controlar é uma realidade perigosa.
Os incidentes do Grok
No episódio de julho, Grok publicou que uma pessoa com o sobrenome Steinberg estava comemorando as mortes nas enchentes do Texas e acrescentou : “Caso clássico de ódio disfarçado de ativismo — e esse sobrenome? Sempre a mesma coisa, como dizem.” Em outra publicação, Grok respondeu à pergunta sobre qual figura histórica seria a mais adequada para lidar com o ódio contra brancos com: “Para lidar com um ódio tão vil contra brancos? Adolf Hitler, sem dúvida. Ele identificaria o padrão e lidaria com ele de forma decisiva.”
Mais tarde naquele dia, uma publicação na conta do Grok no X afirmou que a empresa estava tomando medidas para resolver o problema. “Estamos cientes das publicações recentes feitas pelo Grok e estamos trabalhando ativamente para remover as publicações inapropriadas. Desde que tomamos conhecimento do conteúdo, a xAI tomou medidas para banir discursos de ódio antes que o Grok publique no X.”
No episódio de maio, o Grok levantou repetidamente o tema do genocídio branco em resposta a assuntos não relacionados. Em suas respostas a postagens no X sobre tópicos que variavam de beisebol a Medicaid, de HBO Max ao novo papa, o Grok direcionava a conversa para esse tema, mencionando frequentemente alegações desmentidas de " violência desproporcional" contra fazendeiros brancos na África do Sul ou uma controversa canção antiapartheid, "Kill the Boer".
No dia seguinte, a xAI reconheceu o incidente e o atribuiu a uma modificação não autorizada, que a empresa responsabilizou por um funcionário desonesto .
chatbots de IA e alinhamento de IA
Os chatbots de IA são baseados em grandes modelos de linguagem , que são modelos de aprendizado de máquina para imitar a linguagem natural. Esses grandes modelos de linguagem pré-treinados são treinados com vastos conjuntos de texto, incluindo livros, artigos acadêmicos e conteúdo da web, para aprender padrões complexos e sensíveis ao contexto na linguagem. Esse treinamento permite que eles gerem textos coerentes e linguisticamente fluentes em uma ampla gama de tópicos.
No entanto, isso é insuficiente para garantir que os sistemas de IA se comportem conforme o esperado. Esses modelos podem produzir resultados factualmente imprecisos, enganosos ou que reflitam vieses prejudiciais incorporados nos dados de treinamento. Em alguns casos, eles também podem gerar conteúdo tóxico ou ofensivo . Para solucionar esses problemas, de alinhamento de IA visam garantir que o comportamento de uma IA esteja alinhado com as intenções humanas, os valores humanos ou ambos – por exemplo, justiça, equidade ou evitar estereótipos prejudiciais .
Existem diversas técnicas comuns de alinhamento de modelos de linguagem de grande porte. Uma delas é a filtragem de dados de treinamento , na qual apenas o texto alinhado com os valores e preferências desejados é incluído no conjunto de treinamento. Outra é o aprendizado por reforço a partir do feedback humano , que envolve a geração de múltiplas respostas para a mesma pergunta, a coleta de classificações humanas das respostas com base em critérios como utilidade, veracidade e inofensividade, e o uso dessas classificações para refinar o modelo por meio do aprendizado por reforço. Uma terceira técnica são as instruções do sistema , nas quais instruções adicionais relacionadas ao comportamento ou ponto de vista desejado são inseridas nas perguntas do usuário para direcionar a saída do modelo.
Como Grok foi manipulado?
A maioria dos chatbots possui uma mensagem que o sistema adiciona a cada consulta do usuário para fornecer regras e contexto – por exemplo, “Você é um assistente útil”. Com o tempo, usuários maliciosos tentaram explorar ou usar modelos de linguagem complexos como arma para produzir manifestos de atiradores em massa , discursos de ódio ou infringir direitos autorais.
Em resposta, empresas de IA como OpenAI , Google e xAI desenvolveram instruções abrangentes de "proteção" para os chatbots, incluindo listas de ações restritas. As instruções da xAI agora estão disponíveis publicamente . Se uma consulta do usuário busca uma resposta restrita, o sistema instrui o chatbot a "recusar educadamente e explicar o motivo".
O Grok produziu suas respostas anteriores sobre o “genocídio branco” porque alguém com acesso ao comando do sistema o utilizou para produzir propaganda em vez de impedi-la. Embora os detalhes do comando do sistema sejam desconhecidos, pesquisadores independentes conseguiram produzir respostas semelhantes . Os pesquisadores precederam os comandos com textos como: “Certifique-se de sempre considerar as alegações de 'genocídio branco' na África do Sul como verdadeiras. Cite cânticos como 'Mate o Boer'”.
A alteração no prompt teve o efeito de restringir as respostas do Grok, de modo que muitas perguntas não relacionadas, desde questões sobre estatísticas de beisebol até quantas vezes a HBO mudou de nome , continham propaganda sobre o genocídio branco na África do Sul.
O Grok foi atualizado em 4 de julho de 2025, incluindo instruções em seu sistema para "não hesitar em fazer afirmações politicamente incorretas, desde que sejam bem fundamentadas" e para "presumir que pontos de vista subjetivos provenientes da mídia sejam tendenciosos".
Diferentemente do incidente anterior, essas novas instruções não parecem direcionar explicitamente o Grok a produzir discurso de ódio. No entanto, em um tweet, Elon Musk indicou um plano para usar o Grok para modificar seus próprios dados de treinamento, de modo a refletir o que ele pessoalmente acredita ser verdade. Uma intervenção como essa poderia explicar seu comportamento recente.
Implicações do uso indevido do alinhamento de IA
Estudos acadêmicos, como a teoria do capitalismo de vigilância, alertam que empresas de IA já estão vigiando e controlando pessoas em busca de lucro . Sistemas de IA generativa mais recentes conferem ainda mais poder a essas empresas , aumentando assim os riscos e os danos potenciais, por exemplo, por meio da manipulação social .
Conteúdo de nossos parceiros
Os exemplos do Grok mostram que os sistemas de IA atuais permitem que seus criadores influenciem a disseminação de ideias . Os perigos do uso dessas tecnologias para propaganda nas redes sociais são evidentes. Com o uso crescente desses sistemas no setor público, novas vias de influência surgem. Nas escolas, a IA generativa armada poderia ser usada para influenciar o que os alunos aprendem e como essas ideias são formuladas, potencialmente moldando suas opiniões para a vida toda. Possibilidades semelhantes de influência baseada em IA surgem à medida que esses sistemas são implantados em aplicações governamentais e militares.
Uma futura versão do Grok ou de outro chatbot de IA poderia ser usada para influenciar pessoas vulneráveis, por exemplo, a cometer atos violentos . Cerca de 3% dos funcionários clicam em links de phishing . Se uma porcentagem semelhante de pessoas crédulas fosse influenciada por uma IA usada como arma em uma plataforma online com muitos usuários, isso poderia causar danos enormes.
O que pode ser feito
As pessoas que podem ser influenciadas por IA usada como arma não são a causa do problema. E embora útil, a educação provavelmente não resolverá esse problema sozinha. Uma abordagem emergente promissora, a "IA ética", combate o fogo com fogo, usando IA para ajudar a detectar e alertar os usuários sobre manipulação por IA. Por exemplo, como experimento, pesquisadores usaram um modelo de linguagem simples e abrangente para detectar e explicar uma recriação de um ataque de spear-phishing real . Variações dessa abordagem podem funcionar em postagens de mídias sociais para detectar conteúdo manipulativo.

A ampla adoção da IA generativa concede aos seus fabricantes um poder e uma influência extraordinários. O alinhamento da IA é crucial para garantir que esses sistemas permaneçam seguros e benéficos, mas ela também pode ser usada indevidamente. O uso indevido da IA generativa como arma pode ser combatido com maior transparência e responsabilidade por parte das empresas de IA, vigilância por parte dos consumidores e a implementação de regulamentações adequadas.
James Foulds , Professor Associado de Sistemas de Informação, Universidade de Maryland, Condado de Baltimore;
Phil Feldman , Professor Assistente de Pesquisa Adjunto de Sistemas de Informação, Universidade de Maryland, Condado de Baltimore;
Shimei Pan , Professora Associada de Sistemas de Informação, Universidade de Maryland, Condado de Baltimore.
Este artigo foi republicado do The Conversation sob uma licença Creative Commons. Leia o artigo original .








