Teknologiselskaper vender seg til «syntetiske data» for å trene AI-modeller

hevdet milliardæren og eieren av X, Elon Musk, at mengden menneskeskapte data som brukes til å trene kunstig intelligens (KI)-modeller som ChatGPT, har gått tom.

Musk viste ikke til bevis som støtter dette. Men andre ledende personer i teknologibransjen har kommet med lignende påstander de siste månedene. Og tidligere forskning indikerte at menneskeskapte data ville gå tomt innen to til åtte år.

Dette skyldes i stor grad at mennesker ikke kan lage nye data som tekst, video og bilder raskt nok til å holde tritt med de raske og enorme kravene fra AI-modeller. Når ekte data går tom, vil det presentere et stort problem for både utviklere og brukere av AI.

Det vil tvinge teknologiselskaper til å bli mer avhengige av data generert av AI, kjent som «syntetiske data». Og dette kan igjen føre til at AI-systemene som i dag brukes av hundrevis av millioner mennesker, blir mindre nøyaktige og pålitelige – og derfor nyttige.

Men dette er ikke et uunngåelig resultat. Faktisk kan syntetiske data forbedre AI-modeller hvis de brukes og håndteres nøye.

Teknologiselskaper som OpenAI bruker mer syntetiske data for å trene AI-modeller. T. Schneider/Shutterstock

Problemene med reelle data

Teknologiselskaper er avhengige av data – ekte eller syntetiske – for å bygge, trene og forbedre generative AI-modeller som ChatGPT. Kvaliteten på disse dataene er avgjørende. Dårlige data fører til dårlige resultater, på samme måte som bruk av ingredienser av lav kvalitet i matlaging kan produsere måltider av lav kvalitet.

Ekte data refererer til tekst, video og bilder laget av mennesker. Bedrifter samler dem inn gjennom metoder som spørreundersøkelser, eksperimenter, observasjoner eller utvinning av nettsteder og sosiale medier.

Ekte data anses generelt som verdifulle fordi de inkluderer sanne hendelser og fanger opp et bredt spekter av scenarier og kontekster. De er imidlertid ikke perfekte.

For eksempel kan den inneholde stavefeil og inkonsekvent eller irrelevant innhold . Den kan også være svært partisk , noe som for eksempel kan føre til at generative AI-modeller lager bilder som bare viser menn eller hvite personer i visse jobber.

Denne typen data krever også mye tid og krefter å forberede. Først samler folk inn datasett, før de merker dem for å gjøre dem meningsfulle for en AI-modell. Deretter gjennomgår og renser de disse dataene for å løse eventuelle uoverensstemmelser, før datamaskiner filtrerer, organiserer og validerer dem.

Denne prosessen kan ta opptil 80 % av den totale tidsinvesteringen i utviklingen av et AI-system.

Men som nevnt ovenfor, er det også stadig mer mangel på fordi mennesker ikke kan produsere dem raskt nok til å dekke den økende etterspørselen etter AI.

Fremveksten av syntetiske data

Syntetiske data opprettes eller genereres kunstig av algoritmer , for eksempel tekst generert av ChatGPT eller et bilde generert av DALL-E .

I teorien tilbyr syntetiske data en kostnadseffektiv og raskere løsning for trening av AI-modeller.

Den tar også opp personvernhensyn og etiske problemstillinger, spesielt med sensitiv personopplysninger som helsedata.

Viktigere er det at i motsetning til ekte data er det ikke mangelvare. Faktisk er det ubegrenset.

Fra nå av er det bare syntetiske data.

«Den kumulative summen av menneskelig kunnskap er uttømt i AI-trening. Det skjedde i bunn og grunn i fjor.»

– Elon pic.twitter.com/rdPzCbvdLv
— Rohan Paul (@rohanpaul_ai) 9. januar 2025

Utfordringene med syntetiske data

Av disse grunnene vender teknologiselskaper seg i økende grad til syntetiske data for å trene sine AI-systemer. Analysefirmaet Gartner anslår at syntetiske data vil bli den viktigste formen for data som brukes i AI innen 2030.

Men selv om syntetiske data tilbyr lovende løsninger, er det ikke uten utfordringer.

En primær bekymring er at AI-modeller kan «kollapse» når de er for avhengige av syntetiske data. Dette betyr at de begynner å generere så mange «hallusinasjoner» – en respons som inneholder falsk informasjon – og at kvalitet og ytelse forringes så mye at de er ubrukelige.

For eksempel sliter AI-modeller allerede med å stave noen ord riktig. Hvis disse feilfylte dataene brukes til å trene andre modeller, er de også nødt til å gjenskape feilene.

Syntetiske data har også en risiko for å bli forenklede . De kan mangle de nyanserte detaljene og mangfoldet som finnes i virkelige datasett, noe som kan føre til at resultatet av AI-modeller som er trent på dem også blir for enkelt og mindre nyttig.

Se dette innlegget på Instagram

Et innlegg delt av The Washington Post (@washingtonpost)

Å lage robuste systemer for å holde AI nøyaktig og pålitelig

For å løse disse problemene er det viktig at internasjonale organer og organisasjoner som Den internasjonale standardiseringsorganisasjonen eller FNs internasjonale telekommunikasjonsunion innfører robuste systemer for sporing og validering av AI-opplæringsdata, og sørger for at systemene kan implementeres globalt.

AI-systemer kan utstyres til å spore metadata, slik at brukere eller systemer kan spore opprinnelsen og kvaliteten til syntetiske data de er trent på. Dette ville utfylle et globalt standardisert sporings- og valideringssystem.

Mennesker må også ha tilsyn med syntetiske data gjennom hele treningsprosessen til en AI-modell for å sikre at den er av høy kvalitet. Denne tilsynen bør omfatte å definere mål, validere datakvalitet, sikre samsvar med etiske standarder og overvåke AI-modellens ytelse.

Noe ironisk nok kan AI-algoritmer også spille en rolle i revisjon og verifisering av data, og sikre nøyaktigheten av AI-genererte utdata fra andre modeller. For eksempel kan disse algoritmene sammenligne syntetiske data med reelle data for å identifisere eventuelle feil eller avvik for å sikre at dataene er konsistente og nøyaktige. På denne måten kan syntetiske data føre til bedre AI-modeller.

Fremtiden til kunstig intelligens avhenger av data av høy kvalitet . Syntetiske data vil spille en stadig viktigere rolle i å overvinne datamangel.

Bruken må imidlertid styres nøye for å opprettholde åpenhet, redusere feil og bevare personvernet – slik at syntetiske data fungerer som et pålitelig supplement til reelle data, slik at AI-systemer holdes nøyaktige og pålitelige.

James Jin Kang, førsteamanuensis i informatikk, RMIT University Vietnam .

Denne artikkelen er publisert på nytt fra The Conversation under en Creative Commons-lisens. Les den opprinnelige artikkelen .

SODP

SODP-medier

Teknologiselskaper vender seg til «syntetiske data» for å trene AI-modeller – men det er en skjult kostnad

Opprettet av

Faktasjekket av

Redigert av

Innholdsfortegnelse

Av Vahe Arabian

Problemene med reelle data

Fremveksten av syntetiske data

Utfordringene med syntetiske data

Å lage robuste systemer for å holde AI nøyaktig og pålitelig

Om

Nyttige lenker

Utvalgte artikler

SODP

Teknologiselskaper vender seg til «syntetiske data» for å trene AI-modeller – men det er en skjult kostnad

Opprettet av

Faktasjekket av

Redigert av

Innholdsfortegnelse

Abonner på AI-innsikt

Av Vahe Arabian

Problemene med reelle data

Fremveksten av syntetiske data

Utfordringene med syntetiske data

Å lage robuste systemer for å holde AI nøyaktig og pålitelig

Relaterte innlegg

Nyttige lenker

Utvalgte artikler