Utgiverveksttaktikker for valgsesongen | WEBINAR

Lær mer

SODP

SODP Media

  • Insights
    • Articles
      • Audience Development
      • Content Strategy
      • Digital Publishing
      • Monetization
      • SEO
      • Digital Platforms & Tools
    • Top Tools & Reviews
    • Opinion
    • Podcast
  • Education
    • Publisher SEO Course
    • Events
      • Monetization Week 2025
  • Resources
  • Community
    • Slack Channel
    • Newsletter
  • About
    • About Us
    • Contact Us
    • Editorial Policy
  • English
sodp logo
SODP logo
    Søk
    Lukk denne søkeboksen.
    Logg inn
    • Innsikt
      • Podcast
      • Artikler
        • Publikumsutvikling
        • Innholdsstrategi
        • Digital publisering
        • Inntektsgenerering
        • SEO
        • Digitale plattformer og verktøy
      • Toppverktøy og anmeldelser
        • Artikler
        • Toppverktøy og anmeldelser
        • Mening
        • Podcaster
        • Publikumsutvikling
        • Innholdsstrategi
        • Digital publisering
        • Inntektsgenerering
        • SEO
        • Digitale plattformer og verktøy
        • Hodeløse CMS-plattformer
        • Digitale publiseringsplattformer
        • Programvare for redaksjonell kalender
        • Magasinapper
        • E-post nyhetsbrevplattformer
        • Flere lister over beste verktøy
    • Utdannelse
      • Utgiver SEO-kurs
        • Utgiver SEO-kurs
        • Hendelser
        • Administrere millioner
        • Se alle
    • Ressurser
    • Fellesskap
      • Slack Channel
      • Kontortid
      • Nyhetsbrev
        • Slack Channel
        • Nyhetsbrev
    • Om
      • Om oss
      • Kontakt oss
      • Redaksjonell politikk
        • Om oss
        • Kontakt oss
        • Redaksjonell politikk
    plassholder
    SODP logo
    Bli en merkevarepartner

    Hjem ▸ Digitale plattformer og verktøy ▸ Setter DeepSeek på prøve: Hvordan ytelsen sammenlignes med andre AI -verktøy

    Sette DeepSeek på prøve: Hvordan ytelsen sammenlignes med andre AI -verktøy

    Simon ThorneSimon Thorne
    5. februar 2025
    Fakta sjekket av The Conversation
    Samtalen
    Samtalen

    The Conversation er et unikt samarbeid mellom akademikere og journalister som på et tiår har blitt verdens ledende utgiver av forskningsbaserte nyheter og analyser. Alt du leser på disse sidene er … Les mer

    Redigert av Simon Thorne
    Simon Thorne
    Simon Thorne

    Forskningen min er for det meste forankret i informatikk med applikasjoner i informasjonssystemer. Jeg tenker på meg selv som mer av en naturforsker som foretrekker vitenskapelig utredning når jeg forsker. Min doktorgradsrese ... les mer

    DeepSeek

    Kinas nye DeepSeek Large Language Model (LLM) har forstyrret det USA-dominerte markedet , og tilbyr en relativt høy ytelse chatbot-modell til betydelig lavere pris.

    De reduserte kostnadene for utvikling og lavere abonnementspriser sammenlignet med oss ​​AI -verktøy bidro til at den amerikanske chipprodusenten NVIDIA tapte 600 milliarder dollar (480 milliarder pund) i markedsverdi over en dag. Nvidia gjør at datamaskinbrikkene som brukes til å trene flertallet av LLM -er, den underliggende teknologien som brukes i ChatGPT og andre AI -chatbots. DeepSeek bruker billigere NVIDIA H800-brikker over de dyrere topp moderne versjonene.

    ChatGPT -utvikler Openai brukte angivelig et sted mellom 100 millioner dollar og 1 milliard dollar på utviklingen av en veldig nylig versjon av produktet kalt O1. Derimot oppnådde DeepSeek sin trening på bare to måneder til en pris av 5,6 millioner dollar ved å bruke en serie smarte innovasjoner.

    Men hvor godt sammenligner DeepSeeks AI Chatbot, R1, med andre, lignende AI -verktøy på ytelse?

    DeepSeek hevder at modellene presterer sammenlignbart med Openais tilbud, til og med overskrider O1 -modellen i visse referansetester. Benchmarks som bruker Massive Multitask Language Understanding (MMLU) tester evaluerer imidlertid kunnskap på tvers av flere fag ved hjelp av flervalgsspørsmål. Mange LLM-er er trent og optimalisert for slike tester, noe som gjør dem upålitelige som sanne indikatorer på ytelse i den virkelige verden.

    En alternativ metodikk for objektiv evaluering av LLMS bruker et sett med tester utviklet av forskere ved Cardiff Metropolitan, Bristol og Cardiff universiteter - kjent som Knowledge Observation Group (KOG). Disse testene undersøker LLMS 'evne til å etterligne menneskelig språk og kunnskap gjennom spørsmål som krever implisitt menneskelig forståelse for å svare på. Kjernetestene holdes hemmelige for å unngå at LLM -selskaper trener modellene sine for disse testene.

    Kog distribuerte offentlige tester inspirert av arbeid av Colin Fraser, en dataforsker ved Meta , for å evaluere DeepSeek mot andre LLM -er. Følgende resultater ble observert:

    LLM Performance Test.
    LLM Performance Test.

    Testene som brukes til å produsere denne tabellen er "motstridende" i naturen. De er med andre ord designet for å være "harde" og for å teste LLM -er på en måte som ikke er sympatiske for hvordan de er designet. Dette betyr at ytelsen til disse modellene i denne testen sannsynligvis vil være forskjellig fra ytelsen deres i mainstream benchmarking -tester.

    DeepSeek scoret 5,5 av 6, og overgikk Openais O1-dens avanserte resonnement (kjent som "-kjede") -modellen-samt ChatGPT-4O, den gratis versjonen av ChatGPT. Men DeepSeek ble marginalt utkonkurrert av Anthropics Claudei og Openais O1 Mini, som begge scoret en perfekt 6/6. Det er interessant at O1 underpresterte mot sin "mindre" motstykke, O1 Mini.

    Dypthink R1-et tankert AI-verktøy laget av DeepSeek-underprestert i forhold til DeepSeek med en poengsum på 3,5.

    Dette resultatet viser hvor konkurrerende DeepSeeks chatbot allerede er, og slår Openais flaggskipsmodeller. Det vil sannsynligvis anspore videre utvikling for DeepSeek, som nå har et sterkt fundament å bygge videre på. Det kinesiske teknologiselskapet har imidlertid ett alvorlig problem de andre LLM -ene ikke gjør det: sensur.

    Sensur utfordringer

    Til tross for sin sterke ytelse og popularitet, har DeepSeek møtt kritikk over svarene på politisk følsomme temaer i Kina. For eksempel blir spørsmål relatert til Tiananmen Square, Taiwan, Uyghur muslimer og demokratiske bevegelser møtt med svaret: "Beklager, det er utenfor mitt nåværende omfang."

    Men dette problemet er ikke nødvendigvis unikt for DeepSeek, og potensialet for politisk innflytelse og sensur i LLM -er mer generelt er en økende bekymring. Kunngjøringen om Donald Trumps 500 milliarder dollar Stargate LLM -prosjekt , som involverer Openai, Nvidia, Oracle, Microsoft og Arm, reiser også frykt for politisk innflytelse.

    I tillegg antyder Metas nylige beslutning om å forlate faktasjekking på Facebook og Instagram en økende trend mot populisme over sannhet.

    Innhold fra våre partnere

    Bygg annonse nettverksguide

    Hvordan bygge ditt eget annonsenettverk: en trinn-for-trinns guide

    AI, det dobbeltkantede sverd av kreativitet, og hvorfor utgivere må omfavne det

    AI, det dobbeltkantede sverd av kreativitet, og hvorfor utgivere må omfavne det

    Hvorfor online utgivere trenger en VPN: å beskytte data, kilder og inntekter

    Hvorfor online utgivere trenger en VPN: å beskytte data, kilder og inntekter

    DeepSeeks ankomst har forårsaket alvorlig forstyrrelse av LLM -markedet. Amerikanske selskaper som Openai og Anthropic vil bli tvunget til å innovere produktene sine for å opprettholde relevans og samsvare med ytelsen og kostnadene.

    DeepSeeks suksess utfordrer allerede status quo, og viser at LLM-modeller med høy ytelse kan utvikles uten milliard dollar budsjetter. Det fremhever også risikoen for LLM -sensur, spredning av feilinformasjon og hvorfor uavhengige evalueringer betyr noe.

    Etter hvert som LLM -er blir dypere innebygd i global politikk og næringsliv, vil åpenhet og ansvarlighet være avgjørende for å sikre at fremtiden til LLMS er trygg, nyttig og pålitelig.

    Simon Thorne, senior foreleser i databehandlings- og informasjonssystemer, Cardiff Metropolitan University

    Denne artikkelen blir utgitt fra samtalen under en Creative Commons -lisens. Les den opprinnelige artikkelen .

    Redaktørens valg
    Hva er en innholdsskaper Hva, hvorfor og hvordan i skaperøkonomien
    Innholdsstrategi

    Hva er en innholdsskaper?

    Beste nyhetsbrevplattformer for e-post for utgivere
    Digitale plattformer og verktøy

    8 beste nyhetsbrevplattformer for e-post for utgivere i 2024

    Google Nyheter SEO
    SEO

    Google Nyheter SEO Guide 2024: Beste praksis for nyhetsutgivere

    Relaterte innlegg

    • Beste AI-skriveverktøy
      10 beste AI-skriveverktøy
    • Beste AI-transkripsjonsverktøy
      11 beste AI-transkripsjonsverktøy i 2024
    • AI-verktøy for innholdsskaping
      12 beste AI-verktøy for innholdsskaping
    • 17 beste medieovervåkingsverktøy i 2023
      13 beste medieovervåkningsverktøy i 2025
    SODP logo

    State of Digital Publishing skaper en ny publikasjon og fellesskap for digitale medier og publiseringsfagfolk, innen nye medier og teknologi.

    • Topp verktøy
    • SEO for utgivere
    • Personvernerklæring
    • Redaksjonell politikk
    • Sitemap
    • Søk etter selskap
    Facebook X-twitter Slakk Linkedin

    STATE OF DIGITAL PUBLISHING – COPYRIGHT 2025

    GPP -logo

    Administrere millioner

    Bedre publikumsengasjement uten teknologihodepine

    Hvordan unngå Goldilocks Tech Trap som ødelegger for å gi publikum hva de vil ha

    11. juni 2025

    14.00 BST

    Online arrangement

    Lær mer