Pagsubok sa DeepSeek: Paano Maihahambing ang Pagganap Nito sa Iba Pang AI Tools

ng bagong DeepSeek Large Language Model (LLM) ng Tsina ang merkado na dominado ng US , na nag-aalok ng medyo mataas na pagganap na modelo ng chatbot sa mas mababang halaga.

Ang nabawasang gastos sa pag-develop at mas mababang presyo ng subscription kumpara sa mga kagamitang AI sa US ay nag-ambag sa pagkalugi ng Amerikanong tagagawa ng chip na Nvidia ng US$600 bilyon (£480 bilyon) sa halaga sa merkado sa loob ng isang araw. Ang Nvidia ang gumagawa ng mga computer chip na ginagamit upang sanayin ang karamihan sa mga LLM, ang pinagbabatayang teknolohiyang ginagamit sa ChatGPT at iba pang AI chatbot. Gumagamit ang DeepSeek ng mas murang Nvidia H800 chips kaysa sa mas mahal na mga makabagong bersyon.

Ang developer ng ChatGPT na OpenAI ay naiulat na gumastos sa pagitan ng US$100 milyon at US$1 bilyon sa pagbuo ng isang pinakabagong bersyon ng produkto nito na tinatawag na o1. Sa kabaligtaran, natapos ng DeepSeek ang pagsasanay nito sa loob lamang ng dalawang buwan sa halagang US$5.6 milyon gamit ang isang serye ng matatalinong inobasyon.

Ngunit gaano nga ba kahusay ang performance ng AI chatbot ng DeepSeek, ang R1, kumpara sa iba pang katulad na AI tools?

Inaangkin ng DeepSeek na ang mga modelo nito ay gumaganap nang maihahambing sa mga alok ng OpenAI, na nalampasan pa nga ang modelong o1 sa ilang mga benchmark test. Gayunpaman, ang mga benchmark na gumagamit ng mga pagsubok na Massive Multitask Language Understanding (MMLU) ay sinusuri ang kaalaman sa maraming asignatura gamit ang mga multiple choice question. Maraming LLM ang sinanay at na-optimize para sa mga naturang pagsusulit, na ginagawa silang hindi maaasahan bilang tunay na tagapagpahiwatig ng pagganap sa totoong mundo.

Isang alternatibong metodolohiya para sa obhetibong pagsusuri ng mga LLM ang gumagamit ng isang hanay ng mga pagsubok na binuo ng mga mananaliksik sa mga unibersidad ng Cardiff Metropolitan, Bristol at Cardiff – na sama-samang kilala bilang Knowledge Observation Group (KOG). Sinusuri ng mga pagsubok na ito ang kakayahan ng mga LLM na gayahin ang wika at kaalaman ng tao sa pamamagitan ng mga tanong na nangangailangan ng di-tuwirang pag-unawa ng tao upang masagot. Ang mga pangunahing pagsubok ay pinananatiling lihim, upang maiwasan ang pagsasanay ng mga kumpanya ng LLM sa kanilang mga modelo para sa mga pagsubok na ito.

Nagpatupad ang KOG ng mga pampublikong pagsubok na hango sa gawa ni Colin Fraser, isang data scientist sa Meta , upang suriin ang DeepSeek laban sa iba pang mga LLM. Ang mga sumusunod na resulta ay naobserbahan:

Ang mga pagsubok na ginamit upang makagawa ng talahanayang ito ay may katangiang "magkasalungat". Sa madaling salita, ang mga ito ay idinisenyo upang maging "mahirap" at upang subukan ang mga LLM sa paraang hindi naaayon sa kung paano ang mga ito dinisenyo. Nangangahulugan ito na ang pagganap ng mga modelong ito sa pagsusulit na ito ay malamang na naiiba sa kanilang pagganap sa mga pangunahing pagsubok sa benchmarking.

Nakakuha ang DeepSeek ng 5.5 sa 6, na mas mahusay kaysa sa o1 ng OpenAI – ang advanced reasoning nito (kilala bilang “chain-of-thought”) na modelo – pati na rin ang ChatGPT-4o, ang libreng bersyon ng ChatGPT. Ngunit bahagyang mas mahusay ang Deepseek kaysa sa ClaudeAI ng Anthropic at sa o1 mini ng OpenAI, na parehong nakakuha ng perpektong 6/6. Kapansin-pansin na mas mahusay ang performance ng o1 kumpara sa “mas maliit” nitong katapat, ang o1 mini.

Ang DeepThink R1 – isang chain-of-thought AI tool na ginawa ng DeepSeek – ay hindi gaanong mahusay kumpara sa DeepSeek na may iskor na 3.5.

Ipinapakita ng resultang ito kung gaano na ka-kompetitibo ang chatbot ng DeepSeek, na natatalo ang mga pangunahing modelo ng OpenAI. Malamang na ito ang mag-uudyok sa karagdagang pag-unlad para sa DeepSeek, na ngayon ay mayroon nang matibay na pundasyon na mapagtatagumpayan. Gayunpaman, ang kumpanya ng teknolohiyang Tsino ay may isang seryosong problema na wala sa ibang mga LLM: ang censorship.

Mga hamon sa sensura

Sa kabila ng malakas na pagganap at popularidad nito, ang DeepSeek ay nahaharap sa kritisismo dahil sa mga tugon nito sa mga paksang sensitibo sa politika sa Tsina. Halimbawa, ang mga mungkahi na may kaugnayan sa Tiananmen Square, Taiwan, mga Uyghur Muslim at mga kilusang demokratiko ay sinasagot ng: "Paumanhin, lampas na iyon sa aking kasalukuyang saklaw."

Ngunit ang isyung ito ay hindi lamang sa DeepSeek, at ang potensyal para sa impluwensyang pampulitika at sensura sa mga LLM sa pangkalahatan ay isang lumalaking alalahanin. Ang anunsyo ng proyektong Stargate LLM , na kinasasangkutan ng OpenAI, Nvidia, Oracle, Microsoft, at Arm, ay nagtataas din ng pangamba sa impluwensyang pampulitika.

Bukod pa rito, ang kamakailang desisyon ni Meta na itigil ang pagsuri ng katotohanan sa Facebook at Instagram ay nagmumungkahi ng lumalaking trend patungo sa populismo kaysa sa pagiging makatotohanan.

Ang pagdating ng DeepSeek ay nagdulot ng malubhang pagkagambala sa merkado ng LLM. Ang mga kompanyang Amerikano tulad ng OpenAI at Anthropic ay mapipilitang magbago ng kanilang mga produkto upang mapanatili ang kaugnayan at tumugma sa pagganap at gastos nito.

Hinahamon na ng tagumpay ng DeepSeek ang kasalukuyang kalagayan, na nagpapakita na ang mga modelo ng LLM na may mataas na pagganap ay maaaring mabuo nang walang bilyong dolyar na badyet. Itinatampok din nito ang mga panganib ng sensura ng LLM, ang pagkalat ng maling impormasyon, at kung bakit mahalaga ang mga independiyenteng pagsusuri.

Habang ang mga LLM ay lalong lumalalim sa pandaigdigang politika at negosyo, ang transparency at accountability ay magiging mahalaga upang matiyak na ang kinabukasan ng mga LLM ay ligtas, kapaki-pakinabang, at mapagkakatiwalaan.

Simon Thorne, Senior Lecturer sa Computing at Information Systems, Cardiff Metropolitan University.

Ang artikulong ito ay muling inilathala mula sa The Conversation sa ilalim ng lisensyang Creative Commons. Basahin ang orihinal na artikulo .

SODP

SODP Media

Pagsubok sa DeepSeek: Paano Maihahambing ang Pagganap Nito sa Iba Pang AI Tools

Nilikha Ni

Sinuri ang Katotohanan Ni

Inedit Ni

Talaan ng mga Nilalaman

Ni Vahe Arabian

Mga hamon sa sensura

Tungkol sa

Mga Kapaki-pakinabang na Link

Mga Itinatampok na Artikulo

SODP

Pagsubok sa DeepSeek: Paano Maihahambing ang Pagganap Nito sa Iba Pang AI Tools

Nilikha Ni

Sinuri ang Katotohanan Ni

Inedit Ni

Talaan ng mga Nilalaman

Mag-subscribe sa mga insight ng AI

Ni Vahe Arabian

Mga hamon sa sensura

Mga Kaugnay na Post

Mga Kapaki-pakinabang na Link

Mga Itinatampok na Artikulo