SODP logo

    Teknologiselskaper vender seg til «syntetiske data» for å trene AI-modeller – men det er en skjult kostnad

    Forrige uke hevdet milliardæren og eieren av X, Elon Musk, at mengden menneskeskapte data som brukes til å trene kunstig intelligens (KI)-modeller som ChatGPT, har gått tom. Musk gjorde ikke ..
    Oppdatert: 1. desember 2025
    James Jin Kang

    Opprettet av

    James Jin Kang

    Samtalen

    Faktasjekket av

    Samtalen

    James Jin Kang

    Redigert av

    James Jin Kang

    hevdet milliardæren og eieren av X, Elon Musk, at mengden menneskeskapte data som brukes til å trene kunstig intelligens (KI)-modeller som ChatGPT, har gått tom.

    Musk viste ikke til bevis som støtter dette. Men andre ledende personer i teknologibransjen har kommet med lignende påstander de siste månedene. Og tidligere forskning indikerte at menneskeskapte data ville gå tomt innen to til åtte år.

    Dette skyldes i stor grad at mennesker ikke kan lage nye data som tekst, video og bilder raskt nok til å holde tritt med de raske og enorme kravene fra AI-modeller. Når ekte data går tom, vil det presentere et stort problem for både utviklere og brukere av AI.

    Det vil tvinge teknologiselskaper til å bli mer avhengige av data generert av AI, kjent som «syntetiske data». Og dette kan igjen føre til at AI-systemene som i dag brukes av hundrevis av millioner mennesker, blir mindre nøyaktige og pålitelige – og derfor nyttige.

    Men dette er ikke et uunngåelig resultat. Faktisk kan syntetiske data forbedre AI-modeller hvis de brukes og håndteres nøye.

    Teknologiselskaper som OpenAI bruker mer syntetiske data for å trene AI-modeller. T. Schneider/Shutterstock
    Teknologiselskaper som OpenAI bruker mer syntetiske data for å trene AI-modeller. T. Schneider/Shutterstock

    Problemene med reelle data

    Teknologiselskaper er avhengige av data – ekte eller syntetiske – for å bygge, trene og forbedre generative AI-modeller som ChatGPT. Kvaliteten på disse dataene er avgjørende. Dårlige data fører til dårlige resultater, på samme måte som bruk av ingredienser av lav kvalitet i matlaging kan produsere måltider av lav kvalitet.

    Ekte data refererer til tekst, video og bilder laget av mennesker. Bedrifter samler dem inn gjennom metoder som spørreundersøkelser, eksperimenter, observasjoner eller utvinning av nettsteder og sosiale medier.

    Ekte data anses generelt som verdifulle fordi de inkluderer sanne hendelser og fanger opp et bredt spekter av scenarier og kontekster. De er imidlertid ikke perfekte.

    For eksempel kan den inneholde stavefeil og inkonsekvent eller irrelevant innhold . Den kan også være svært partisk , noe som for eksempel kan føre til at generative AI-modeller lager bilder som bare viser menn eller hvite personer i visse jobber.

    Denne typen data krever også mye tid og krefter å forberede. Først samler folk inn datasett, før de merker dem for å gjøre dem meningsfulle for en AI-modell. Deretter gjennomgår og renser de disse dataene for å løse eventuelle uoverensstemmelser, før datamaskiner filtrerer, organiserer og validerer dem.

    Denne prosessen kan ta opptil 80 % av den totale tidsinvesteringen i utviklingen av et AI-system.

    Men som nevnt ovenfor, er det også stadig mer mangel på fordi mennesker ikke kan produsere dem raskt nok til å dekke den økende etterspørselen etter AI.

    Fremveksten av syntetiske data

    Syntetiske data opprettes eller genereres kunstig av algoritmer , for eksempel tekst generert av ChatGPT eller et bilde generert av DALL-E .

    I teorien tilbyr syntetiske data en kostnadseffektiv og raskere løsning for trening av AI-modeller.

    Den tar også opp personvernhensyn og etiske problemstillinger, spesielt med sensitiv personopplysninger som helsedata.

    Viktigere er det at i motsetning til ekte data er det ikke mangelvare. Faktisk er det ubegrenset.

    Utfordringene med syntetiske data

    Av disse grunnene vender teknologiselskaper seg i økende grad til syntetiske data for å trene sine AI-systemer. Analysefirmaet Gartner anslår at syntetiske data vil bli den viktigste formen for data som brukes i AI innen 2030.

    Men selv om syntetiske data tilbyr lovende løsninger, er det ikke uten utfordringer.

    En primær bekymring er at AI-modeller kan «kollapse» når de er for avhengige av syntetiske data. Dette betyr at de begynner å generere så mange «hallusinasjoner» – en respons som inneholder falsk informasjon – og at kvalitet og ytelse forringes så mye at de er ubrukelige.

    For eksempel sliter AI-modeller allerede med å stave noen ord riktig. Hvis disse feilfylte dataene brukes til å trene andre modeller, er de også nødt til å gjenskape feilene.

    Syntetiske data har også en risiko for å bli forenklede . De kan mangle de nyanserte detaljene og mangfoldet som finnes i virkelige datasett, noe som kan føre til at resultatet av AI-modeller som er trent på dem også blir for enkelt og mindre nyttig.

    Å lage robuste systemer for å holde AI nøyaktig og pålitelig

    For å løse disse problemene er det viktig at internasjonale organer og organisasjoner som Den internasjonale standardiseringsorganisasjonen eller FNs internasjonale telekommunikasjonsunion innfører robuste systemer for sporing og validering av AI-opplæringsdata, og sørger for at systemene kan implementeres globalt.

    AI-systemer kan utstyres til å spore metadata, slik at brukere eller systemer kan spore opprinnelsen og kvaliteten til syntetiske data de er trent på. Dette ville utfylle et globalt standardisert sporings- og valideringssystem.

    Mennesker må også ha tilsyn med syntetiske data gjennom hele treningsprosessen til en AI-modell for å sikre at den er av høy kvalitet. Denne tilsynen bør omfatte å definere mål, validere datakvalitet, sikre samsvar med etiske standarder og overvåke AI-modellens ytelse.

    Noe ironisk nok kan AI-algoritmer også spille en rolle i revisjon og verifisering av data, og sikre nøyaktigheten av AI-genererte utdata fra andre modeller. For eksempel kan disse algoritmene sammenligne syntetiske data med reelle data for å identifisere eventuelle feil eller avvik for å sikre at dataene er konsistente og nøyaktige. På denne måten kan syntetiske data føre til bedre AI-modeller.

    Fremtiden til kunstig intelligens avhenger av data av høy kvalitet . Syntetiske data vil spille en stadig viktigere rolle i å overvinne datamangel.

    Bruken må imidlertid styres nøye for å opprettholde åpenhet, redusere feil og bevare personvernet – slik at syntetiske data fungerer som et pålitelig supplement til reelle data, slik at AI-systemer holdes nøyaktige og pålitelige.

    James Jin Kang, førsteamanuensis i informatikk, RMIT University Vietnam .

    Denne artikkelen er publisert på nytt fra The Conversation under en Creative Commons-lisens. Les den opprinnelige artikkelen .

    0
    Vil gjerne ha dine tanker, legg igjen en kommentar. x
    ()
    x