SODP logo

    DeepSeek : Comment une petite entreprise chinoise d’IA bouleverse les géants de la tech américaine

    La société chinoise d'intelligence artificielle (IA) DeepSeek a créé la surprise dans le monde de la tech en dévoilant des modèles d'IA extrêmement performants, capables de rivaliser avec les produits de pointe d'entreprises américaines telles que…
    Mise à jour : 1er décembre 2025
    Tongliang Liu

    Créé par

    Tongliang Liu

    La conversation

    Vérifié par

    La conversation

    Tongliang Liu

    Édité par

    Tongliang Liu

    La société chinoise d'intelligence artificielle (IA) DeepSeek a provoqué une onde de choc dans la communauté technologique avec la publication de modèles d'IA extrêmement efficaces capables de rivaliser avec les produits de pointe de sociétés américaines telles qu'OpenAI et Anthropic.

    Fondée en 2023, DeepSeek a obtenu ces résultats avec un budget et une puissance de calcul bien inférieurs à ceux de ses concurrents.

    Le modèle R1 de DeepSeek, capable de « raisonner », dévoilé la semaine dernière, a suscité l'enthousiasme des chercheurs, la stupéfaction des investisseurs et de nombreuses réactions de la part des géants de l'IA. L'entreprise a ensuite présenté, le 28 janvier, un modèle fonctionnant aussi bien avec des images qu'avec du texte.

    Alors, qu'a fait DeepSeek, et comment a-t-il procédé ?

    Ce que DeepSeek a fait

    En décembre, DeepSeek a lancé son modèle V3 . Il s'agit d'un modèle de langage « standard » très puissant et de grande taille, dont les performances sont similaires à celles de GPT-40 d'OpenAI et de Claude 3.5 d'Anthropic.

    Bien que ces modèles soient sujets à des erreurs et puissent parfois inventer des faits , ils sont capables d'accomplir des tâches telles que répondre à des questions, rédiger des dissertations et générer du code informatique. À certains tests de résolution de problèmes et de raisonnement mathématique, leurs résultats sont supérieurs à ceux de la moyenne humaine.

    L'entraînement de V3 aurait coûté environ 5,58 millions de dollars américains. C'est nettement moins cher que celui de GPT-4, par exemple, dont le développement plus de 100 millions de dollars américains

    DeepSeek affirme également avoir entraîné V3 à l'aide d'environ 2 000 puces informatiques spécialisées, plus précisément des GPU H800 de NVIDIA . Ce nombre est nettement inférieur à celui d'autres entreprises, qui ont pu utiliser jusqu'à 16 000 puces H100, plus puissantes.

    Le 20 janvier, DeepSeek a publié un nouveau modèle, appelé R1 . Il s'agit d'un modèle de « raisonnement » qui s'efforce de résoudre des problèmes complexes étape par étape. Ces modèles semblent plus performants pour de nombreuses tâches nécessitant un contexte et comportant plusieurs parties interdépendantes, comme la compréhension de texte et la planification stratégique.

    Le modèle R1 est une version améliorée du modèle V3, modifiée grâce à une technique appelée apprentissage par renforcement. R1 semble offrir des performances similaires à celles du modèle o1 d'OpenAI , sorti l'année dernière.

    DeepSeek a également utilisé la même technique pour créer des versions « rationnelles » de petits modèles open source pouvant fonctionner sur des ordinateurs personnels.

    Cette annonce a suscité un regain d'intérêt considérable pour DeepSeek, faisant exploser la popularité de son application de chatbot basée sur la version 3 et provoquant une chute vertigineuse des cours des valeurs technologiques, les investisseurs réévaluant le secteur de l'IA. À l'heure où nous écrivons ces lignes, le fabricant de puces NVIDIA a perdu environ 600 milliards de dollars de capitalisation boursière.

    Comment DeepSeek a procédé

    Les avancées majeures de DeepSeek résident dans sa capacité à optimiser l'efficacité : obtenir de bons résultats avec moins de ressources. Plus précisément, les développeurs de DeepSeek ont ​​mis au point deux techniques novatrices qui pourraient être plus largement adoptées par les chercheurs en IA.

    Le premier point concerne un concept mathématique appelé « parcimonie ». Les modèles d'IA possèdent de nombreux paramètres qui déterminent leurs réponses aux entrées (V3 en compte environ 671 milliards), mais seule une petite fraction de ces paramètres est utilisée pour une entrée donnée.

    Cependant, prédire les paramètres nécessaires n'est pas chose aisée. DeepSeek a utilisé une nouvelle technique pour y parvenir, puis a entraîné uniquement sur ces paramètres. De ce fait, ses modèles ont nécessité un entraînement bien plus court qu'avec une approche classique.

    L'autre astuce concerne la manière dont V3 stocke les informations en mémoire. DeepSeek a trouvé une méthode ingénieuse pour compresser les données pertinentes, ce qui facilite leur stockage et leur accès rapide.

    DeepSeek a bouleversé le secteur de l'IA, qui pèse plusieurs milliards de dollars. Robert Way/Shutterstock
    DeepSeek a bouleversé le secteur de l'IA, qui pèse plusieurs milliards de dollars. Robert Way/Shutterstock

    Ce que cela signifie

    Les modèles et techniques de DeepSeek sont publiés sous la licence libre MIT , ce qui signifie que n'importe qui peut les télécharger et les modifier.

    Si cela peut constituer une mauvaise nouvelle pour certaines entreprises spécialisées en IA – dont les profits pourraient être érodés par l'existence de modèles puissants et disponibles gratuitement –, c'est une excellente nouvelle pour l'ensemble de la communauté de recherche en IA.

    À l'heure actuelle, de nombreuses recherches en IA nécessitent l'accès à d'énormes ressources informatiques. Les chercheurs comme moi, qui travaillons dans les universités (ou ailleurs qu'au sein des grandes entreprises technologiques), ont des capacités limitées pour mener des tests et des expériences.

    Des modèles et des techniques plus efficaces changent la donne. L'expérimentation et le développement pourraient désormais être considérablement facilités.

    Pour les consommateurs, l'accès à l'IA pourrait également devenir moins coûteux. Davantage de modèles d'IA pourraient être exécutés sur les appareils des utilisateurs, tels que leurs ordinateurs portables ou leurs téléphones, plutôt que dans le « cloud » moyennant un abonnement.

    Pour les chercheurs disposant déjà de ressources importantes, un gain d'efficacité pourrait avoir un impact moindre. On ignore si l'approche de DeepSeek permettra de créer des modèles globalement plus performants, ou simplement des modèles plus efficaces.

    Tongliang Liu, professeur associé d'apprentissage automatique et directeur du Centre d'IA de Sydney, Université de Sydney.

    Cet article est republié de The Conversation sous licence Creative Commons. Lire l' article original .