A empresa chinesa de inteligência artificial (IA) DeepSeek causou grande impacto na comunidade tecnológica com o lançamento de modelos de IA extremamente eficientes, capazes de competir com produtos de ponta de empresas americanas como OpenAI e Anthropic.
Fundada em 2023, a DeepSeek alcançou seus resultados com uma fração do capital e do poder computacional de seus concorrentes.
O modelo de "raciocínio" R1 da DeepSeek, lançado na semana passada, provocou entusiasmo entre pesquisadores, choque entre investidores e reações de grandes nomes da IA. A empresa lançou, em 28 de janeiro, um modelo que funciona tanto com imagens quanto com texto.
O Deepseek R1 é um modelo impressionante, principalmente considerando o que ele oferece pelo preço.
— Sam Altman (@sama) 28 de janeiro de 2025
Obviamente, lançaremos modelos ainda melhores e é realmente revigorante ter um novo concorrente! Em breve, divulgaremos alguns lançamentos.
Então, o que o DeepSeek fez e como o fez?
O que a DeepSeek fez
Em dezembro, a DeepSeek lançou seu modelo V3 . Trata-se de um modelo de linguagem "padrão" muito poderoso, com desempenho semelhante ao do GPT-4o da OpenAI e ao do Claude 3.5 da Anthropic.
Embora esses modelos sejam propensos a erros e, às vezes, inventem seus próprios fatos , eles podem realizar tarefas como responder a perguntas, escrever redações e gerar código de computador. Em alguns testes de resolução de problemas e raciocínio matemático, eles obtêm resultados melhores do que a média humana.
O treinamento do V3 teve um custo estimado em cerca de US$ 5,58 milhões. Isso é consideravelmente mais barato do que o GPT-4, por exemplo, cujo desenvolvimento mais de US$ 100 milhões
A DeepSeek também afirma ter treinado a versão 3 usando cerca de 2.000 chips de computador especializados, especificamente GPUs H800 fabricadas pela NVIDIA . Novamente, esse número é muito menor do que o de outras empresas, que podem ter usado até 16.000 chips H100, mais potentes.
Em 20 de janeiro, a DeepSeek lançou outro modelo, chamado R1 . Este é um modelo de "raciocínio" que tenta resolver problemas complexos passo a passo. Esses modelos parecem ser mais eficazes em muitas tarefas que exigem contexto e possuem múltiplas partes inter-relacionadas, como compreensão de leitura e planejamento estratégico.
O modelo R1 é uma versão aprimorada do V3, modificada com uma técnica chamada aprendizado por reforço. O R1 parece funcionar em um nível semelhante ao o1 da OpenAI , lançado no ano passado.
A DeepSeek também usou a mesma técnica para criar versões "racionais" de pequenos modelos de código aberto que podem ser executados em computadores domésticos.
Este lançamento gerou um enorme interesse no DeepSeek, impulsionando a popularidade de seu aplicativo de chatbot com tecnologia V3 e provocando uma queda acentuada no preço das ações de tecnologia, à medida que os investidores reavaliam o setor de IA. No momento da redação deste texto, a fabricante de chips NVIDIA perdeu cerca de US$ 600 bilhões em valor de mercado.
Como a DeepSeek fez isso
Os avanços do DeepSeek residem na obtenção de maior eficiência: alcançar bons resultados com menos recursos. Em particular, os desenvolvedores do DeepSeek foram pioneiros em duas técnicas que podem ser adotadas por pesquisadores de IA de forma mais ampla.
A primeira tem a ver com um conceito matemático chamado "esparsidade". Os modelos de IA possuem muitos parâmetros que determinam suas respostas às entradas (a versão 3 tem cerca de 671 bilhões), mas apenas uma pequena fração desses parâmetros é usada para qualquer entrada específica.
No entanto, prever quais parâmetros serão necessários não é fácil. A DeepSeek usou uma nova técnica para isso e, em seguida, treinou apenas esses parâmetros. Como resultado, seus modelos precisaram de muito menos treinamento do que uma abordagem convencional.
O outro truque tem a ver com a forma como o V3 armazena informações na memória do computador. A DeepSeek encontrou uma maneira inteligente de comprimir os dados relevantes, facilitando o armazenamento e o acesso rápido a eles.

O que significa
Os modelos e técnicas do DeepSeek foram disponibilizados sob a licença MIT , o que significa que qualquer pessoa pode baixá-los e modificá-los.
Embora isso possa ser uma má notícia para algumas empresas de IA – cujos lucros podem ser corroídos pela existência de modelos poderosos e disponíveis gratuitamente – é uma ótima notícia para a comunidade de pesquisa em IA em geral.
Atualmente, muitas pesquisas em IA exigem acesso a enormes quantidades de recursos computacionais. Pesquisadores como eu, que trabalham em universidades (ou em qualquer lugar que não seja uma grande empresa de tecnologia), têm tido capacidade limitada para realizar testes e experimentos.
Modelos e técnicas mais eficientes mudam o cenário. A experimentação e o desenvolvimento podem agora ser significativamente mais fáceis para nós.
Para os consumidores, o acesso à IA também poderá ficar mais barato. Mais modelos de IA poderão ser executados nos próprios dispositivos dos usuários, como laptops ou celulares, em vez de serem executados "na nuvem" mediante o pagamento de uma taxa de assinatura.
Para pesquisadores que já dispõem de muitos recursos, maior eficiência pode ter um impacto menor. Não está claro se a abordagem do DeepSeek ajudará a criar modelos com melhor desempenho geral ou simplesmente modelos mais eficientes.
Tongliang Liu, Professor Associado de Aprendizado de Máquina e Diretor do Centro de IA de Sydney, Universidade de Sydney.
Este artigo foi republicado do The Conversation sob uma licença Creative Commons. Leia o artigo original .





