DeepSeek : comment une petite entreprise chinoise d’IA bouleverse les géants technologiques américains

La société chinoise d'intelligence artificielle (IA) DeepSeek a provoqué une onde de choc dans la communauté technologique avec la publication de modèles d'IA extrêmement efficaces capables de rivaliser avec les produits de pointe de sociétés américaines telles qu'OpenAI et Anthropic.

Fondée en 2023, DeepSeek a obtenu ces résultats avec un budget et une puissance de calcul bien inférieurs à ceux de ses concurrents.

Le modèle R1 de DeepSeek, capable de « raisonner », dévoilé la semaine dernière, a suscité l'enthousiasme des chercheurs, la stupéfaction des investisseurs et de nombreuses réactions de la part des géants de l'IA. L'entreprise a ensuite présenté, le 28 janvier, un modèle fonctionnant aussi bien avec des images qu'avec du texte.

Le R1 de Deepseek est un modèle impressionnant, surtout compte tenu de ses performances pour ce prix.

Nous proposerons évidemment des modèles bien meilleurs, et c'est vraiment stimulant d'avoir un nouveau concurrent ! Nous allons bientôt vous présenter nos nouveautés.
— Sam Altman (@sama) 28 janvier 2025

Alors, qu'a fait DeepSeek, et comment a-t-il procédé ?

Ce que DeepSeek a fait

En décembre, DeepSeek a lancé son modèle V3 . Il s'agit d'un modèle de langage « standard » très puissant et de grande taille, dont les performances sont similaires à celles de GPT-40 d'OpenAI et de Claude 3.5 d'Anthropic.

Bien que ces modèles soient sujets à des erreurs et puissent parfois inventer des faits , ils sont capables d'accomplir des tâches telles que répondre à des questions, rédiger des dissertations et générer du code informatique. À certains tests de résolution de problèmes et de raisonnement mathématique, leurs résultats sont supérieurs à ceux de la moyenne humaine.

L'entraînement de V3 aurait coûté environ 5,58 millions de dollars américains. C'est nettement moins cher que celui de GPT-4, par exemple, dont le développement plus de 100 millions de dollars américains

DeepSeek affirme également avoir entraîné V3 à l'aide d'environ 2 000 puces informatiques spécialisées, plus précisément des GPU H800 de NVIDIA . Ce nombre est nettement inférieur à celui d'autres entreprises, qui ont pu utiliser jusqu'à 16 000 puces H100, plus puissantes.

Le 20 janvier, DeepSeek a publié un nouveau modèle, appelé R1 . Il s'agit d'un modèle de « raisonnement » qui s'efforce de résoudre des problèmes complexes étape par étape. Ces modèles semblent plus performants pour de nombreuses tâches nécessitant un contexte et comportant plusieurs parties interdépendantes, comme la compréhension de texte et la planification stratégique.

Le modèle R1 est une version améliorée du modèle V3, modifiée grâce à une technique appelée apprentissage par renforcement. R1 semble offrir des performances similaires à celles du modèle o1 d'OpenAI , sorti l'année dernière.

DeepSeek a également utilisé la même technique pour créer des versions « rationnelles » de petits modèles open source pouvant fonctionner sur des ordinateurs personnels.

Cette annonce a suscité un regain d'intérêt considérable pour DeepSeek, faisant exploser la popularité de son application de chatbot basée sur la version 3 et provoquant une chute vertigineuse des cours des valeurs technologiques, les investisseurs réévaluant le secteur de l'IA. À l'heure où nous écrivons ces lignes, le fabricant de puces NVIDIA a perdu environ 600 milliards de dollars de capitalisation boursière.

Comment DeepSeek a procédé

Les avancées majeures de DeepSeek résident dans sa capacité à optimiser l'efficacité : obtenir de bons résultats avec moins de ressources. Plus précisément, les développeurs de DeepSeek ont mis au point deux techniques novatrices qui pourraient être plus largement adoptées par les chercheurs en IA.

Le premier point concerne un concept mathématique appelé « parcimonie ». Les modèles d'IA possèdent de nombreux paramètres qui déterminent leurs réponses aux entrées (V3 en compte environ 671 milliards), mais seule une petite fraction de ces paramètres est utilisée pour une entrée donnée.

Cependant, prédire les paramètres nécessaires n'est pas chose aisée. DeepSeek a utilisé une nouvelle technique pour y parvenir, puis a entraîné uniquement sur ces paramètres. De ce fait, ses modèles ont nécessité un entraînement bien plus court qu'avec une approche classique.

L'autre astuce concerne la manière dont V3 stocke les informations en mémoire. DeepSeek a trouvé une méthode ingénieuse pour compresser les données pertinentes, ce qui facilite leur stockage et leur accès rapide.

DeepSeek a bouleversé le secteur de l'IA, qui pèse plusieurs milliards de dollars. Robert Way/Shutterstock

Ce que cela signifie

Les modèles et techniques de DeepSeek sont publiés sous la licence libre MIT , ce qui signifie que n'importe qui peut les télécharger et les modifier.

Si cela peut constituer une mauvaise nouvelle pour certaines entreprises spécialisées en IA – dont les profits pourraient être érodés par l'existence de modèles puissants et disponibles gratuitement –, c'est une excellente nouvelle pour l'ensemble de la communauté de recherche en IA.

À l'heure actuelle, de nombreuses recherches en IA nécessitent l'accès à d'énormes ressources informatiques. Les chercheurs comme moi, qui travaillons dans les universités (ou ailleurs qu'au sein des grandes entreprises technologiques), ont des capacités limitées pour mener des tests et des expériences.

Des modèles et des techniques plus efficaces changent la donne. L'expérimentation et le développement pourraient désormais être considérablement facilités.

Pour les consommateurs, l'accès à l'IA pourrait également devenir moins coûteux. Davantage de modèles d'IA pourraient être exécutés sur les appareils des utilisateurs, tels que leurs ordinateurs portables ou leurs téléphones, plutôt que dans le « cloud » moyennant un abonnement.

Pour les chercheurs disposant déjà de ressources importantes, un gain d'efficacité pourrait avoir un impact moindre. On ignore si l'approche de DeepSeek permettra de créer des modèles globalement plus performants, ou simplement des modèles plus efficaces.

Tongliang Liu, professeur associé d'apprentissage automatique et directeur du Centre d'IA de Sydney, Université de Sydney.

Cet article est republié de The Conversation sous licence Creative Commons. Lire l' article original .

SODP

SODP Media

DeepSeek : Comment une petite entreprise chinoise d’IA bouleverse les géants de la tech américaine

Créé par

Vérifié par

Édité par

Table des matières

Par Vahe Arabian

Ce que DeepSeek a fait

Comment DeepSeek a procédé

Ce que cela signifie

À propos

Liens utiles

Articles en vedette

SODP

DeepSeek : Comment une petite entreprise chinoise d’IA bouleverse les géants de la tech américaine

Créé par

Vérifié par

Édité par

Table des matières

Abonnez-vous aux analyses d'IA

Par Vahe Arabian

Ce que DeepSeek a fait

Comment DeepSeek a procédé

Ce que cela signifie

Articles similaires

Liens utiles

Articles en vedette