Tactiques de croissance des éditeurs pour la saison électorale | SÉMINAIRE EN LIGNE

Apprendre encore plus

SODP

SODP Media

  • Education
    • Articles
      • Audience Development
      • Content Strategy
      • Digital Publishing
      • Monetization
      • SEO
      • Digital Platforms & Tools
    • Opinion
    • Podcast
    • Events
      • All Events
  • Top Tools & Reviews
  • Research & Resources
  • Community
    • Slack Channel
    • Newsletter
  • About
    • About Us
    • Contact Us
    • Editorial Policy
  • English
sodp logo
SODP logo
    Recherche
    Fermez ce champ de recherche.
    Connexion
    • Éducation
      • Podcast
      • Des articles
        • Développement du public
        • Stratégie de contenu
        • Édition numérique
        • Monétisation
        • Référencement
        • Plateformes et outils numériques
        • Des articles
        • Avis
        • Baladodiffusions
        • Événements
        • Développement du public
        • Stratégie de contenu
        • Édition numérique
        • Monétisation
        • Référencement
        • Plateformes et outils numériques
        • Voir tout
    • Meilleurs outils et avis
        • Plateformes CMS sans tête
        • Plateformes de publication numérique
        • Logiciel de calendrier éditorial
        • Applications de magazines
        • Plateformes de newsletter par e-mail
        • Plus de listes de meilleurs outils
        • Commentaires
    • Recherche et ressources
    • Communauté
      • Canal mou
      • Heures de travail
      • Bulletin
        • Canal mou
        • Bulletin
    • À propos
      • À propos de nous
      • Contactez-nous
      • Politique éditoriale
        • À propos de nous
        • Contactez-nous
        • Politique éditoriale
    espace réservé
    SODP logo
    Devenez partenaire de marque

    Accueil ▸ Plateformes et outils numériques ▸ Mettre en profondeur au test: comment ses performances se comparent aux autres outils d'IA

    Mettre en profondeur à l'épreuve: comment ses performances se comparent aux autres outils d'IA

    Simon ThorneSimon Thorne
    5 février 2025
    Fait vérifié par The Conversation
    La conversation
    La conversation

    The Conversation est une collaboration unique entre universitaires et journalistes qui est devenue en une décennie le premier éditeur mondial d'informations et d'analyses fondées sur la recherche. Tout ce que vous lisez sur ces pages est… Lire la suite

    Édité par Simon Thorne
    Simon Thorne
    Simon Thorne

    Mes recherches sont principalement fondées sur l'informatique avec des applications dans les systèmes d'information. Je me considère comme plus un scientifique naturel préférant une enquête scientifique lors de la recherche. Mon doctorat… Lire la suite

    En profondeur

    Le nouveau modèle de grande langue (LLM) en Chine a perturbé le marché dominé par les États-Unis , offrant un modèle de chatbot relativement performant à un coût nettement inférieur.

    Le coût de développement réduit et la baisse des prix d'abonnement par rapport aux outils d'IA américains ont contribué au fabricant de puces américain Nvidia perdant 600 milliards de dollars US (480 milliards de livres sterling) en valeur marchande sur une journée. NVIDIA fait que les puces informatiques forment la majorité des LLM, la technologie sous-jacente utilisée dans Chatgpt et d'autres chatbots d'IA. Deepseek utilise des puces Nvidia H800 moins chères sur les versions plus chères de pointe.

    Le développeur de Chatgpt Openai aurait dépensé entre 100 millions de dollars et 1 milliard de dollars américains pour le développement d'une version très récente de son produit appelé O1. En revanche, Deepseek a réalisé sa formation en seulement deux mois au coût de 5,6 millions de dollars américains en utilisant une série d'innovations intelligentes.

    Mais à quel point le chatbot AI de Deepseek, R1, se compare-t-il avec d'autres outils d'IA similaires sur les performances?

    Deepseek affirme que ses modèles fonctionnent de manière comparable aux offres d'Openai, dépassant même le modèle O1 dans certains tests de référence. Cependant, les repères qui utilisent des tests massifs de compréhension du langage multitâche (MMLU) évaluent les connaissances sur plusieurs sujets en utilisant des questions à choix multiples. De nombreux LLM sont formés et optimisés pour de tels tests, ce qui les rend peu fiables comme de véritables indicateurs de performances réelles.

    Une méthodologie alternative pour l'évaluation objective des LLM utilise un ensemble de tests développés par des chercheurs de Cardiff Metropolitan, Bristol et Cardiff Universities - connue collectivement sous le nom de Group d'observation des connaissances (KOG). Ces tests sondent la capacité des LLMS à imiter le langage humain et les connaissances à travers des questions qui nécessitent une compréhension humaine implicite pour répondre. Les tests de base sont gardés secrètes, pour éviter que les entreprises LLM forment leurs modèles pour ces tests.

    KOG a déployé des tests publics inspirés par les travaux de Colin Fraser, un scientifique des données chez Meta , pour évaluer Deepseek contre d'autres LLM. Les résultats suivants ont été observés:

    Test de performances LLM.
    Test de performances LLM.

    Les tests utilisés pour produire ce tableau sont de nature «contradictoire». En d'autres termes, ils sont conçus pour être «durs» et pour tester les LLM de manière qui ne sympathisait pas à la façon dont ils sont conçus. Cela signifie que les performances de ces modèles dans ce test sont probablement différentes de leurs performances dans les tests d'analyse comparative traditionnels.

    Deepseek a marqué 5,5 sur 6, surperformant le modèle O1 - son raisonnement avancé (connu sous le nom de «chaîne de réflexion») - ainsi que ChatGPT-4O, la version gratuite de Chatgpt. Mais Deepseek a été marginalement surperformé par Claudeai d'Anthropic et O1 Mini d'Openai, qui a tous deux marqué un 6/6 parfait. Il est intéressant que O1 ait sous-performé contre son homologue «plus petit», O1 Mini.

    Deepthink R1 - un outil d'IA en chaîne de pensées fabriqué par Deepseek - sous-performé par rapport à Deepseek avec un score de 3,5.

    Ce résultat montre à quel point le chatbot de Deepseek compétitif est déjà, battant les modèles phares d'Openai. Il est susceptible de stimuler le développement de Deepseek, qui a désormais une base solide sur laquelle s'appuyer. Cependant, la société de technologie chinoise a un problème grave que les autres LLM ne le font pas: la censure.

    Défis de censure

    Malgré sa forte performance et sa popularité, Deepseek a fait face à des critiques sur ses réponses à des sujets politiquement sensibles en Chine. Par exemple, les invites liées à Tiananmen Square, Taiwan, les musulmans ouïghour et les mouvements démocratiques sont rencontrés par la réponse: «Désolé, cela dépasse ma portée actuelle.»

    Mais cette question n'est pas nécessairement unique à Deepseek, et le potentiel d'influence politique et de censure dans les LLM est généralement une préoccupation croissante. projet de Stargate LLM de Donald Trump , impliquant Openai, Nvidia, Oracle, Microsoft et ARM, suscite également des craintes d'influence politique.

    De plus, la récente décision de Meta d' abandonner la vérification des faits sur Facebook et Instagram suggère une tendance croissante vers le populisme sur la véracité.

    Contenu de nos partenaires

    Construire un guide de réseau publicitaire

    Comment construire votre propre réseau publicitaire: un guide étape par étape

    AI, l'épée de créativité à double tranchant, et pourquoi les éditeurs doivent l'adopter

    AI, l'épée de créativité à double tranchant, et pourquoi les éditeurs doivent l'adopter

    Pourquoi les éditeurs en ligne ont besoin d'un VPN: protection des données, des sources et des revenus

    Pourquoi les éditeurs en ligne ont besoin d'un VPN: protection des données, des sources et des revenus

    L'arrivée de Deepseek a provoqué de graves perturbations sur le marché LLM. Les entreprises américaines telles que OpenAI et anthropic seront obligées d'innover leurs produits pour maintenir la pertinence et égaler ses performances et ses coûts.

    Le succès de Deepseek conteste déjà le statu quo, démontrant que les modèles LLM haute performance peuvent être développés sans budgets d'un milliard de dollars. Il met également en évidence les risques de censure LLM, la propagation de la désinformation et pourquoi les évaluations indépendantes sont importantes.

    À mesure que les LLM sont plus profondément ancrées dans la politique et les entreprises mondiales, la transparence et la responsabilité seront essentielles pour garantir que l'avenir des LLM est sûr, utile et digne de confiance.

    Simon Thorne, maître de conférences en informatique et systèmes d'information, Cardiff Metropolitan University

    Cet article est republié à partir de la conversation sous une licence Creative Commons. Lisez l' article original .

    Choix de l'éditeur
    Qu'est-ce qu'un créateur de contenu ? Le quoi, le pourquoi et le comment de l'économie des créateurs
    Stratégie de contenu

    Qu'est-ce qu'un créateur de contenu ?

    Meilleures plateformes de newsletter par e-mail pour les éditeurs
    Plateformes et outils numériques

    8 meilleures plateformes de newsletter par e-mail pour les éditeurs en 2024

    Référencement Google Actualités
    Référencement

    Guide SEO Google Actualités 2024 : meilleures pratiques pour les éditeurs d'actualités

    Articles Similaires

    • Meilleurs outils d'écriture d'IA
      10 meilleurs outils d'écriture d'IA
    • Meilleurs outils de transcription d'IA
      11 meilleurs outils de transcription d'IA en 2024
    • Outils d'IA pour la création de contenu
      12 meilleurs outils d'IA pour la création de contenu
    • 17 meilleurs outils de surveillance des médias en 2023
      13 meilleurs outils de surveillance des médias en 2025
    SODP logo

    State of Digital Publishing crée une nouvelle publication et une nouvelle communauté pour les professionnels des médias numériques et de l'édition, dans les nouveaux médias et technologies.

    • Meilleurs outils
    • SEO pour les éditeurs
    • Politique de confidentialité
    • Politique éditoriale
    • Plan du site
    • Recherche par entreprise
    Facebook X-twitter Mou Linkedin

    ÉTAT DE L’ÉDITION NUMÉRIQUE – COPYRIGHT 2025