DeepSeek: hvordan et lite kinesisk AI-selskap ryster opp i amerikanske teknologitungvektere

Det kinesiske selskapet DeepSeek, som spesialiserer seg på kunstig intelligens (KI), har sendt sjokkbølger gjennom teknologimiljøet med lanseringen av ekstremt effektive KI-modeller som kan konkurrere med banebrytende produkter fra amerikanske selskaper som OpenAI og Anthropic.

DeepSeek ble grunnlagt i 2023 og har oppnådd sine resultater med en brøkdel av kontantene og datakraften til konkurrentene.

DeepSeeks R1-modell, som ble lansert forrige uke, skapte begeistring blant forskere, sjokk blant investorer og reaksjoner fra tungvektere innen kunstig intelligens. Selskapet fulgte opp 28. januar med en modell som kan fungere med både bilder og tekst.

Deepseeks R1 er en imponerende modell, spesielt med tanke på hva de kan levere for prisen.

Vi kommer selvsagt til å levere mye bedre modeller, og det er også veldig forfriskende å ha en ny konkurrent! Vi kommer til å vise frem noen utgivelser.
— Sam Altman (@sama) 28. januar 2025

Så hva har DeepSeek gjort, og hvordan gjorde de det?

Hva DeepSeek gjorde

I desember lanserte DeepSeek sin V3-modell . Dette er en svært kraftig «standard» storspråkmodell som yter på et lignende nivå som OpenAIs GPT-4o og Anthropics Claude 3.5.

Selv om disse modellene er utsatt for feil og noen ganger finner på sine egne fakta , kan de utføre oppgaver som å svare på spørsmål, skrive essays og generere datakode. På noen tester av problemløsning og matematisk resonnement skårer de bedre enn gjennomsnittsmennesket.

V3 ble trent til en rapportert kostnad på rundt 5,58 millioner amerikanske dollar. Dette er dramatisk billigere enn for eksempel GPT-4, som kostet mer enn 100 millioner amerikanske dollar å utvikle.

DeepSeek hevder også å ha trent V3 ved hjelp av rundt 2000 spesialiserte databrikker, nærmere bestemt H800 GPU-er laget av NVIDIA . Dette er igjen mye færre enn andre selskaper, som kan ha brukt opptil 16 000 av de kraftigere H100-brikkene.

Den 20. januar lanserte DeepSeek en ny modell, kalt R1 . Dette er en såkalt «resonneringsmodell» som prøver å jobbe seg gjennom komplekse problemer trinn for trinn. Disse modellene ser ut til å være bedre på mange oppgaver som krever kontekst og har flere sammenhengende deler, som leseforståelse og strategisk planlegging.

R1-modellen er en justert versjon av V3, modifisert med en teknikk som kalles forsterkningslæring. R1 ser ut til å fungere på et lignende nivå som OpenAIs o1 , som ble utgitt i fjor.

DeepSeek brukte også den samme teknikken til å lage «resonnementsversjoner» av små modeller med åpen kildekode som kan kjøres på hjemmedatamaskiner.

Denne utgivelsen har skapt en enorm økning i interessen for DeepSeek, noe som har økt populariteten til den V3-drevne chatbot-appen og utløst et massivt priskrakk i teknologiaksjer ettersom investorer revurderer AI-bransjen. I skrivende stund har brikkeprodusenten NVIDIA tapt rundt 600 milliarder dollar i verdi.

Hvordan DeepSeek gjorde det

DeepSeeks gjennombrudd har vært å oppnå større effektivitet: å få gode resultater med færre ressurser. Spesielt har DeepSeeks utviklere vært pionerer i to teknikker som kan bli tatt i bruk av AI-forskere i større grad.

Den første har å gjøre med en matematisk idé kalt «sparsitet». AI-modeller har mange parametere som bestemmer deres respons på input (V3 har rundt 671 milliarder), men bare en liten brøkdel av disse parameterne brukes for en gitt input.

Det er imidlertid ikke lett å forutsi hvilke parametere som vil være nødvendige. DeepSeek brukte en ny teknikk for å gjøre dette, og trente deretter bare disse parameterne. Som et resultat trengte modellene deres langt mindre trening enn en konvensjonell tilnærming.

Det andre trikset har å gjøre med hvordan V3 lagrer informasjon i datamaskinens minne. DeepSeek har funnet en smart måte å komprimere relevante data på, slik at de er enklere å lagre og få rask tilgang til.

DeepSeek har rystet opp den milliardstore AI-industrien. Robert Way/Shutterstock

Hva det betyr

DeepSeeks modeller og teknikker er utgitt under den gratis MIT-lisensen , som betyr at alle kan laste dem ned og endre dem.

Selv om dette kan være dårlige nyheter for noen AI-selskaper – hvis fortjeneste kan bli svekket av eksistensen av fritt tilgjengelige, kraftige modeller – er det gode nyheter for det bredere AI-forskningsmiljøet.

For tiden krever mye forskning på kunstig intelligens tilgang til enorme mengder dataressurser. Forskere som meg selv, som er basert ved universiteter (eller andre steder enn store teknologiselskaper), har hatt begrenset mulighet til å utføre tester og eksperimenter.

Mer effektive modeller og teknikker endrer situasjonen. Eksperimentering og utvikling kan nå bli betydelig enklere for oss.

For forbrukere kan tilgang til AI også bli billigere. Flere AI-modeller kan kjøres på brukernes egne enheter, for eksempel bærbare datamaskiner eller telefoner, i stedet for å kjøre «i skyen» mot et abonnementsgebyr.

For forskere som allerede har mange ressurser, kan mer effektivitet ha mindre effekt. Det er uklart om DeepSeeks tilnærming vil bidra til å lage modeller med bedre ytelse totalt sett, eller rett og slett modeller som er mer effektive.

Tongliang Liu, førsteamanuensis i maskinlæring og direktør for Sydney AI Centre, University of Sydney.

Denne artikkelen er publisert på nytt fra The Conversation under en Creative Commons-lisens. Les den opprinnelige artikkelen .

SODP

SODP-medier

DeepSeek: Hvordan et lite kinesisk AI-selskap ryster opp amerikanske teknologitungvektere

Opprettet av

Faktasjekket av

Redigert av

Innholdsfortegnelse

Av Vahe Arabian

Hva DeepSeek gjorde

Hvordan DeepSeek gjorde det

Hva det betyr

Om

Nyttige lenker

Utvalgte artikler

SODP

DeepSeek: Hvordan et lite kinesisk AI-selskap ryster opp amerikanske teknologitungvektere

Opprettet av

Faktasjekket av

Redigert av

Innholdsfortegnelse

Abonner på AI-innsikt

Av Vahe Arabian

Hva DeepSeek gjorde

Hvordan DeepSeek gjorde det

Hva det betyr

Relaterte innlegg

Nyttige lenker

Utvalgte artikler