Empresas de tecnologia estão recorrendo a 'dados sintéticos' para treinar modelos de IA

Na semana passada, o bilionário e proprietário da X, Elon Musk, afirmou que o conjunto de dados gerados por humanos, usado para treinar modelos de inteligência artificial (IA) como o ChatGPT, se esgotou.

Musk não citou provas para sustentar essa afirmação. Mas outras figuras importantes da indústria de tecnologia fizeram alegações semelhantes nos últimos meses. E pesquisas anteriores indicaram que os dados gerados por humanos se esgotariam em dois a oito anos.

Isso se deve principalmente ao fato de que os humanos não conseguem criar novos dados, como texto, vídeo e imagens, com rapidez suficiente para acompanhar as demandas enormes e aceleradas dos modelos de IA. Quando os dados genuínos se esgotarem, isso representará um grande problema tanto para os desenvolvedores quanto para os usuários de IA.

Isso forçará as empresas de tecnologia a dependerem mais de dados gerados por IA, conhecidos como "dados sintéticos". E isso, por sua vez, poderá levar a que os sistemas de IA atualmente usados por centenas de milhões de pessoas se tornem menos precisos e confiáveis – e, portanto, menos úteis.

Mas esse não é um resultado inevitável. Na verdade, se usados e gerenciados com cuidado, os dados sintéticos podem aprimorar os modelos de IA.

Empresas de tecnologia como a OpenAI estão usando mais dados sintéticos para treinar modelos de IA. T. Schneider/Shutterstock

Os problemas com dados reais

As empresas de tecnologia dependem de dados – reais ou sintéticos – para construir, treinar e aprimorar modelos generativos de IA, como o ChatGPT. A qualidade desses dados é crucial. Dados de baixa qualidade levam a resultados ruins, da mesma forma que usar ingredientes de baixa qualidade na culinária pode produzir refeições de baixa qualidade.

Dados reais referem-se a textos, vídeos e imagens criados por humanos. As empresas os coletam por meio de métodos como pesquisas, experimentos, observações ou mineração de sites e mídias sociais.

Os dados reais são geralmente considerados valiosos porque incluem eventos verídicos e abrangem uma ampla gama de cenários e contextos. No entanto, não são perfeitos.

Por exemplo, pode conter erros ortográficos e conteúdo inconsistente ou irrelevante. Também pode ser fortemente tendencioso, o que pode, por exemplo, levar modelos de IA generativa a criar imagens que mostram apenas homens ou pessoas brancas em determinadas profissões.

Esse tipo de dado também exige muito tempo e esforço para ser preparado. Primeiro, as pessoas coletam conjuntos de dados e, em seguida, os rotulam para que façam sentido para um modelo de IA. Depois, revisam e limpam esses dados para resolver quaisquer inconsistências, antes que os computadores os filtrem, organizem e validem.

Esse processo pode consumir até 80% do tempo total investido no desenvolvimento de um sistema de IA.

Mas, como mencionado acima, os dados reais também estão cada vez mais escassos, porque os humanos não conseguem produzi-los com rapidez suficiente para atender à crescente demanda da IA.

A ascensão dos dados sintéticos

Dados sintéticos são criados ou gerados artificialmente por algoritmos, como um texto gerado pelo ChatGPT ou uma imagem gerada pelo DALL-E.

Em teoria, os dados sintéticos oferecem uma solução mais rápida e com melhor custo-benefício para o treinamento de modelos de IA.

Aborda também preocupações com a privacidade e questões éticas, particularmente no que diz respeito a informações pessoais sensíveis, como dados de saúde.

É importante ressaltar que, ao contrário dos dados reais, não há escassez deles. Na verdade, são ilimitados.

A partir daqui, só haverá dados sintéticos.

"O conhecimento humano acumulado se esgotou no treinamento de IA. Isso aconteceu, basicamente, no ano passado."

– Elon Muskpic.twitter.com/rdPzCbvdLv
-Rohan Paul (@rohanpaul_ai) 9 de janeiro de 2025

Os desafios dos dados sintéticos

Por esses motivos, as empresas de tecnologia estão recorrendo cada vez mais a dados sintéticos para treinar seus sistemas de IA. A empresa de pesquisa Gartner estima que, até 2030, os dados sintéticos se tornarão a principal forma de dados usada em IA.

Mas, embora os dados sintéticos ofereçam soluções promissoras, não estão isentos de desafios.

Uma das principais preocupações é que os modelos de IA podem "colapsar" quando dependem demais de dados sintéticos. Isso significa que começam a gerar tantas "alucinações" – respostas que contêm informações falsas – e sofrem uma queda tão grande em qualidade e desempenho que se tornam inutilizáveis.

Por exemplo, os modelos de IA já têm dificuldades em soletrar algumas palavras corretamente. Se esses dados repletos de erros forem usados para treinar outros modelos, eles também irão replicar os erros.

Os dados sintéticos também apresentam o risco de serem excessivamente simplistas. Podem ser desprovidos das nuances e da diversidade encontradas em conjuntos de dados reais, o que poderia resultar em modelos de IA treinados com eles também excessivamente simplistas e menos úteis.

Veja esta publicação no Instagram

Uma publicação compartilhada por The Washington Post (@washingtonpost)

Criar sistemas robustos para manter a IA precisa e confiável

Para solucionar esses problemas, é essencial que órgãos e organizações internacionais, como a Organização Internacional de Normalização (ISO) ou a União Internacional de Telecomunicações (UIT) das Nações Unidas, implementem sistemas robustos para rastrear e validar dados de treinamento de IA e garantam que esses sistemas possam ser implementados globalmente.

Os sistemas de IA podem ser equipados para rastrear metadados, permitindo que usuários ou sistemas rastreiem a origem e a qualidade de quaisquer dados sintéticos com os quais tenham sido treinados. Isso complementaria um sistema de rastreamento e validação padronizado globalmente.

Os humanos também devem supervisionar os dados sintéticos durante todo o processo de treinamento de um modelo de IA para garantir sua alta qualidade. Essa supervisão deve incluir a definição de objetivos, a validação da qualidade dos dados, a garantia de conformidade com os padrões éticos e o monitoramento do desempenho do modelo de IA.

De certa forma irônica, os algoritmos de IA também podem desempenhar um papel na auditoria e verificação de dados, garantindo a precisão dos resultados gerados por IA a partir de outros modelos. Por exemplo, esses algoritmos podem comparar dados sintéticos com dados reais para identificar erros ou discrepâncias, assegurando a consistência e a precisão dos dados. Dessa forma, os dados sintéticos podem levar a modelos de IA mais eficazes.

O futuro da IA depende de dados de alta qualidade. Os dados sintéticos desempenharão um papel cada vez mais importante para superar a escassez de dados.

No entanto, seu uso deve ser cuidadosamente gerenciado para manter a transparência, reduzir erros e preservar a privacidade – garantindo que os dados sintéticos sirvam como um complemento confiável aos dados reais, mantendo os sistemas de IA precisos e confiáveis.

James Jin Kang, Professor Sênior de Ciência da Computação, RMIT University Vietnam.

Este artigo foi republicado do The Conversation sob uma licença Creative Commons. Leia o artigo original.