DeepSeek: kung paano niyayaya ng isang maliit na kumpanya ng AI sa Tsina ang mga bigating kompanya sa teknolohiya ng US

Nagpadala ng mga dagok sa komunidad ng teknolohiya , sa paglabas ng mga lubos na mahusay na modelo ng AI na maaaring makipagkumpitensya sa mga makabagong produkto mula sa mga kompanyang Amerikano tulad ng OpenAI at Anthropic.

Itinatag noong 2023, nakamit ng DeepSeek ang mga resulta nito gamit ang mas maliit na bahagi ng pera at lakas ng pag-compute ng mga kakumpitensya nito.

Ang modelong "pangangatwiran" R1 ng DeepSeek, na inilabas noong nakaraang linggo, ay pumukaw ng pananabik sa mga mananaliksik, pagkabigla sa mga mamumuhunan, at mga tugon mula sa mga malalaking kompanya ng AI. Sinundan ito ng kumpanya noong Enero 28 gamit ang isang modelo na maaaring gumana sa mga imahe pati na rin sa teksto.

Kahanga-hanga ang modelo ng r1 ng Deepseek, lalo na't abot-kaya nila ang presyo nito.

Mas maganda ang mga modelong maibibigay namin at nakakatuwa ring magkaroon ng bagong kakumpitensya! Maglalabas kami ng ilang mga produkto.
— Sam Altman (@sama) Enero 28, 2025

Kaya ano ang nagawa ng DeepSeek, at paano nito ito nagawa?

Ang ginawa ng DeepSeek

Noong Disyembre, inilabas ng DeepSeek ang modelong V3 . Ito ay isang napakalakas na "pamantayang" modelo ng malaking wika na gumaganap sa katulad na antas ng GPT-4o ng OpenAI at Claude 3.5 ng Anthropic.

Bagama't ang mga modelong ito ay madaling magkamali at kung minsan ay gumagawa ng sarili nilang mga katotohanan , maaari silang magsagawa ng mga gawain tulad ng pagsagot sa mga tanong, pagsulat ng mga sanaysay at pagbuo ng computer code. Sa ilang mga pagsusulit sa paglutas ng problema at pangangatwiran sa matematika, mas mataas ang kanilang iskor kaysa sa karaniwang tao.

Ang V3 ay sinanay sa iniulat na gastos na humigit-kumulang US$5.58 milyon. Ito ay lubhang mas mura kaysa sa GPT-4, halimbawa, na nagkakahalaga ng mahigit US$100 milyon upang mabuo.

Inaangkin din ng DeepSeek na sinanay nila ang V3 gamit ang humigit-kumulang 2,000 espesyalisadong computer chips, partikular na ang mga H800 GPU na ginawa ng NVIDIA . Ito ay mas kaunti muli kaysa sa ibang mga kumpanya, na maaaring gumamit ng hanggang 16,000 sa mas makapangyarihang H100 chips.

Noong Enero 20, naglabas ang DeepSeek ng isa pang modelo, na tinatawag na R1 . Ito ay isang tinatawag na modelo ng "pangangatwiran," na sumusubok na lutasin ang mga kumplikadong problema nang paunti-unti. Ang mga modelong ito ay tila mas mahusay sa maraming gawain na nangangailangan ng konteksto at may maraming magkakaugnay na bahagi, tulad ng pag-unawa sa binasa at pagpaplano ng estratehiya.

Ang modelong R1 ay isang binagong bersyon ng V3, na binago gamit ang isang pamamaraan na tinatawag na reinforcement learning. Lumilitaw na gumagana ang R1 sa katulad na antas ng o1 ng OpenAI , na inilabas noong nakaraang taon.

Ginamit din ng DeepSeek ang parehong pamamaraan upang gumawa ng mga bersyong "pangangatwiran" ng maliliit na open-source na modelo na maaaring tumakbo sa mga computer sa bahay.

Ang paglabas na ito ay nagdulot ng malaking pagdagsa ng interes sa DeepSeek, na nagpataas ng popularidad ng V3-powered chatbot app at nagdulot ng napakalaking pagbagsak ng presyo sa mga tech stock habang muling sinusuri ng mga mamumuhunan ang industriya ng AI. Sa panahon ng pagsulat, ang chipmaker na NVIDIA ay nawalan ng humigit-kumulang US$600 bilyon sa halaga.

Paano ito nagawa ng DeepSeek

Ang mga tagumpay ng DeepSeek ay ang pagkamit ng mas mataas na kahusayan: ang pagkakaroon ng magagandang resulta gamit ang mas kaunting mapagkukunan. Sa partikular, ang mga developer ng DeepSeek ang nanguna sa dalawang pamamaraan na maaaring gamitin ng mga mananaliksik ng AI sa mas malawak na paraan.

Ang una ay may kinalaman sa isang ideyang matematikal na tinatawag na "sparsity". Ang mga modelo ng AI ay maraming parametro na tumutukoy sa kanilang mga tugon sa mga input (ang V3 ay may humigit-kumulang 671 bilyon), ngunit isang maliit na bahagi lamang ng mga parametrong ito ang ginagamit para sa anumang ibinigay na input.

Gayunpaman, hindi madaling hulaan kung aling mga parameter ang kakailanganin. Gumamit ang DeepSeek ng isang bagong pamamaraan upang gawin ito, at pagkatapos ay sinanay lamang ang mga parameter na iyon. Bilang resulta, ang mga modelo nito ay nangangailangan ng mas kaunting pagsasanay kaysa sa isang kumbensyonal na pamamaraan.

Ang isa pang trick ay may kinalaman sa kung paano iniimbak ng V3 ang impormasyon sa memorya ng computer. Nakatuklas ang DeepSeek ng isang matalinong paraan upang i-compress ang mga kaugnay na data, kaya mas madali itong iimbak at mabilis na ma-access.

Niyanig ng DeepSeek ang industriya ng AI na nagkakahalaga ng bilyong dolyar. Robert Way/Shutterstock

Ang ibig sabihin nito

Ang mga modelo at pamamaraan ng DeepSeek ay inilabas sa ilalim ng libreng Lisensya ng MIT , na nangangahulugang maaaring i-download at baguhin ng sinuman ang mga ito.

Bagama't maaaring masamang balita ito para sa ilang mga kumpanya ng AI – na ang kita ay maaaring mabawasan dahil sa pagkakaroon ng malayang magagamit at makapangyarihang mga modelo – isa itong magandang balita para sa mas malawak na komunidad ng pananaliksik sa AI.

Sa kasalukuyan, maraming pananaliksik sa AI ang nangangailangan ng pag-access sa napakaraming mapagkukunan ng computing. Ang mga mananaliksik na tulad ko na nakabase sa mga unibersidad (o kahit saan maliban sa malalaking kumpanya ng teknolohiya) ay may limitadong kakayahang magsagawa ng mga pagsubok at eksperimento.

Binabago ng mas mahusay na mga modelo at pamamaraan ang sitwasyon. Ang eksperimento at pag-unlad ay maaaring maging mas madali na ngayon para sa atin.

Para sa mga mamimili, ang access sa AI ay maaari ring maging mas mura. Mas maraming modelo ng AI ang maaaring patakbuhin sa sariling mga device ng mga gumagamit, tulad ng mga laptop o telepono, sa halip na tumakbo "sa cloud" kapalit ng bayad sa subscription.

Para sa mga mananaliksik na mayroon nang maraming mapagkukunan, ang mas mataas na kahusayan ay maaaring magkaroon ng mas kaunting epekto. Hindi pa malinaw kung ang pamamaraan ng DeepSeek ay makakatulong upang makagawa ng mga modelo na may mas mahusay na pagganap sa pangkalahatan, o mga modelo lamang na mas mahusay.

Si Tongliang Liu, Associate Professor ng Machine Learning at Direktor ng Sydney AI Centre, University of Sydney.

Ang artikulong ito ay muling inilathala mula sa The Conversation sa ilalim ng lisensyang Creative Commons. Basahin ang orihinal na artikulo .

SODP

SODP Media

DeepSeek: Paano Niyayaya ng Isang Maliit na Kumpanya ng AI sa Tsina ang mga Malalaking Mataas na Kakayahang Pang-teknolohiya sa US

Nilikha Ni

Sinuri ang Katotohanan Ni

Inedit Ni

Talaan ng mga Nilalaman

Ni Vahe Arabian

Ang ginawa ng DeepSeek

Paano ito nagawa ng DeepSeek

Ang ibig sabihin nito

Tungkol sa

Mga Kapaki-pakinabang na Link

Mga Itinatampok na Artikulo

SODP

DeepSeek: Paano Niyayaya ng Isang Maliit na Kumpanya ng AI sa Tsina ang mga Malalaking Mataas na Kakayahang Pang-teknolohiya sa US

Nilikha Ni

Sinuri ang Katotohanan Ni

Inedit Ni

Talaan ng mga Nilalaman

Mag-subscribe sa mga insight ng AI

Ni Vahe Arabian

Ang ginawa ng DeepSeek

Paano ito nagawa ng DeepSeek

Ang ibig sabihin nito

Mga Kaugnay na Post

Mga Kapaki-pakinabang na Link

Mga Itinatampok na Artikulo