Ang mga Kumpanya ng Teknolohiya ay Bumaling sa 'Sintetikong Data' upang Sanayin ang mga Modelo ng AI

inangkin ng bilyonaryo at may-ari ng X na si Elon Musk naubusan na ang koleksyon ng datos na nabuo ng tao na ginagamit sa pagsasanay ng mga modelo ng artificial intelligence (AI) tulad ng ChatGPT.

Hindi binanggit ni Musk ang ebidensya na sumusuporta rito. Ngunit ang iba pang nangungunang mga tauhan sa industriya ng teknolohiya ay gumawa ng mga katulad na pahayag nitong mga nakaraang buwan. At ng mga naunang pananaliksik na ang datos na nilikha ng tao ay mauubos sa loob ng dalawa hanggang walong taon.

Ito ay higit sa lahat dahil ang mga tao ay hindi makakalikha ng mga bagong datos tulad ng teksto, video, at mga imahe nang sapat na mabilis upang makasabay sa mabilis at napakalaking pangangailangan ng mga modelo ng AI. Kapag naubusan na ng tunay na datos, ito ay magpapakita ng isang malaking problema para sa parehong mga developer at gumagamit ng AI.

Pipilitin nito ang mga kompanya ng teknolohiya na mas umasa sa datos na nalilikha ng AI, na kilala bilang "synthetic data". At ito naman ay maaaring humantong sa pagiging hindi gaanong tumpak at maaasahan – at samakatuwid, kapaki-pakinabang – ang mga sistema ng AI na kasalukuyang ginagamit ng daan-daang milyong tao.

Ngunit hindi ito isang hindi maiiwasang resulta. Sa katunayan, kung gagamitin at pangangasiwaan nang maingat, maaaring mapabuti ng sintetikong datos ang mga modelo ng AI.

Ang mga kompanya ng teknolohiya tulad ng OpenAI ay gumagamit ng mas maraming sintetikong datos upang sanayin ang mga modelo ng AI. T. Schneider/Shutterstock

Ang mga problema sa totoong datos

Ang mga kompanya ng teknolohiya ay umaasa sa datos – tunay man o sintetiko – upang bumuo, magsanay, at magpino ng mga generative na modelo ng AI tulad ng ChatGPT. Napakahalaga ng kalidad ng datos na ito . Ang mahinang datos ay humahantong sa mahinang output, katulad ng paggamit ng mga mababang kalidad na sangkap sa pagluluto na maaaring makagawa ng mababang kalidad na pagkain.

Ang totoong datos ay tumutukoy sa teksto, bidyo, at mga imaheng nilikha ng mga tao. Kinokolekta ito ng mga kumpanya sa pamamagitan ng mga pamamaraan tulad ng mga survey, eksperimento, obserbasyon, o pagmimina ng mga website at social media.

Ang totoong datos ay karaniwang itinuturing na mahalaga dahil kinabibilangan ito ng mga totoong pangyayari at kumukuha ng malawak na hanay ng mga senaryo at konteksto. Gayunpaman, hindi ito perpekto.

Halimbawa, maaari itong maglaman ng mga pagkakamali sa pagbaybay at hindi pare-pareho o hindi nauugnay na nilalaman . Maaari rin itong maging lubhang may kinikilingan , na maaaring, halimbawa, humantong sa mga generative na modelo ng AI na lumilikha ng mga imahe na nagpapakita lamang ng mga kalalakihan o puting tao sa ilang partikular na trabaho.

Ang ganitong uri ng datos ay nangangailangan din ng maraming oras at pagsisikap upang maihanda. Una, kinokolekta ng mga tao ang mga dataset, bago lagyan ng label ang mga ito upang maging makabuluhan ang mga ito para sa isang modelo ng AI. Pagkatapos ay susuriin at lilinisin nila ang datos na ito upang malutas ang anumang hindi pagkakapare-pareho, bago ito salain, ayusin, at patunayan ng mga computer.

Ang prosesong ito ay maaaring tumagal ng hanggang 80% ng kabuuang oras na ilalaan sa pagbuo ng isang sistema ng AI.

Ngunit gaya ng nabanggit sa itaas, ang totoong datos ay lalong nagiging kapos dahil hindi ito kayang gawin ng mga tao nang mabilis upang matugunan ang lumalaking pangangailangan sa AI.

Ang pag-usbong ng sintetikong datos

Ang sintetikong datos ay artipisyal na nalilikha o nabubuo ng mga algorithm , tulad ng tekstong nabubuo ng ChatGPT o isang imaheng nabubuo ng DALL-E .

Sa teorya, ang sintetikong datos ay nag-aalok ng isang cost-effective at mas mabilis na solusyon para sa pagsasanay ng mga modelo ng AI.

Tinutugunan din nito ang mga alalahanin sa privacy at mga isyung etikal, lalo na sa mga sensitibong personal na impormasyon tulad ng datos sa kalusugan.

Mahalaga, hindi tulad ng totoong datos, hindi ito kapos. Sa katunayan, ito ay walang limitasyon.

Mula rito, tanging ang Sintetikong datos na lamang.

"Ang pinagsama-samang kabuuan ng kaalaman ng tao ay naubos na sa pagsasanay ng AI. Nangyari iyon, talaga, noong nakaraang taon.”

– Elon pic.twitter.com/rdPzCbvdLv
— Rohan Paul (@rohanpaul_ai) Enero 9, 2025

Ang mga hamon ng sintetikong datos

Dahil sa mga kadahilanang ito, ang mga kompanya ng teknolohiya ay lalong bumabaling sa sintetikong datos upang sanayin ang kanilang mga sistema ng AI. Tinatantya na pagsapit ng 2030, ang sintetikong datos ang magiging pangunahing anyo ng datos na gagamitin sa AI.

Ngunit bagama't nag-aalok ang sintetikong datos ng mga magagandang solusyon, hindi ito walang mga hamon.

Ang isang pangunahing alalahanin ay ang mga modelo ng AI ay maaaring "magiba" kapag labis silang umaasa sa sintetikong datos. Nangangahulugan ito na nagsisimula silang lumikha ng napakaraming "mga halusinasyon" – isang tugon na naglalaman ng maling impormasyon – at bumababa nang husto sa kalidad at pagganap na hindi na magagamit ang mga ito.

Halimbawa, nahihirapan na sa wastong pagbaybay ng ilang salita. Kung ang datos na ito na puno ng pagkakamali ay gagamitin upang sanayin ang ibang mga modelo, tiyak na mauulit din nila ang mga pagkakamali.

Ang sintetikong datos ay may panganib ding maging labis na simple . Maaaring wala itong mga detalyadong detalye at pagkakaiba-iba na matatagpuan sa mga totoong dataset, na maaaring magresulta sa output ng mga modelo ng AI na sinanay dito na maging labis ding simple at hindi gaanong kapaki-pakinabang.

Tingnan ang post na ito sa Instagram

Isang post na ibinahagi ng The Washington Post (@washingtonpost)

Paglikha ng matatag na sistema upang mapanatiling tumpak at mapagkakatiwalaan ang AI

Upang matugunan ang mga isyung ito, mahalaga na ang mga internasyonal na katawan at organisasyon tulad ng International Organization for Standardization o ng International Telecommunication Union ay magpakilala ng mga matatag na sistema para sa pagsubaybay at pagpapatunay ng datos ng pagsasanay sa AI, at tiyaking maipapatupad ang mga sistemang ito sa buong mundo.

Maaaring gamitin ang mga AI system upang subaybayan ang metadata, na nagbibigay-daan sa mga user o system na subaybayan ang pinagmulan at kalidad ng anumang sintetikong data na pinagsanayan nito. Ito ay makadaragdag sa isang pandaigdigang pamantayan ng sistema ng pagsubaybay at pagpapatunay.

Dapat ding panatilihin ng mga tao ang pangangasiwa sa sintetikong datos sa buong proseso ng pagsasanay ng isang modelo ng AI upang matiyak na ito ay may mataas na kalidad. Dapat kabilang sa pangangasiwang ito ang pagtukoy ng mga layunin, pagpapatunay sa kalidad ng datos, pagtiyak sa pagsunod sa mga pamantayang etikal at pagsubaybay sa pagganap ng modelo ng AI.

Medyo ironiko, ang mga algorithm ng AI ay maaari ring gumanap ng papel sa pag-awdit at pag-verify ng datos, na tinitiyak ang katumpakan ng mga output na nabuo ng AI mula sa iba pang mga modelo. Halimbawa, maaaring ihambing ng mga algorithm na ito ang sintetikong datos laban sa totoong datos upang matukoy ang anumang mga error o pagkakaiba upang matiyak na ang datos ay pare-pareho at tumpak. Kaya sa ganitong paraan, ang sintetikong datos ay maaaring humantong sa mas mahusay na mga modelo ng AI.

Ang kinabukasan ng AI ay nakasalalay sa mataas na kalidad ng datos . Ang sintetikong datos ay gaganap ng lalong mahalagang papel sa pagharap sa kakulangan ng datos.

Gayunpaman, ang paggamit nito ay dapat na maingat na pamahalaan upang mapanatili ang transparency, mabawasan ang mga error, at mapangalagaan ang privacy – tinitiyak na ang sintetikong datos ay nagsisilbing maaasahang suplemento sa totoong datos, na pinapanatiling tumpak at mapagkakatiwalaan ang mga sistema ng AI.

James Jin Kang, Senior Lecturer sa Computer Science, RMIT University Vietnam .

Ang artikulong ito ay muling inilathala mula sa The Conversation sa ilalim ng lisensyang Creative Commons. Basahin ang orihinal na artikulo .

SODP

SODP Media

Ang mga Kumpanya ng Teknolohiya ay Bumaling sa 'Sintetikong Data' upang Sanayin ang mga Modelo ng AI – Ngunit Mayroong Nakatagong Gastos

Nilikha Ni

Sinuri ang Katotohanan Ni

Inedit Ni

Talaan ng mga Nilalaman

Ni Vahe Arabian

Ang mga problema sa totoong datos

Ang pag-usbong ng sintetikong datos

Ang mga hamon ng sintetikong datos

Paglikha ng matatag na sistema upang mapanatiling tumpak at mapagkakatiwalaan ang AI

Tungkol sa

Mga Kapaki-pakinabang na Link

Mga Itinatampok na Artikulo

SODP

Ang mga Kumpanya ng Teknolohiya ay Bumaling sa 'Sintetikong Data' upang Sanayin ang mga Modelo ng AI – Ngunit Mayroong Nakatagong Gastos

Nilikha Ni

Sinuri ang Katotohanan Ni

Inedit Ni

Talaan ng mga Nilalaman

Mag-subscribe sa mga insight ng AI

Ni Vahe Arabian

Ang mga problema sa totoong datos

Ang pag-usbong ng sintetikong datos

Ang mga hamon ng sintetikong datos

Paglikha ng matatag na sistema upang mapanatiling tumpak at mapagkakatiwalaan ang AI

Mga Kaugnay na Post

Mga Kapaki-pakinabang na Link

Mga Itinatampok na Artikulo