En dag i en datajournalists liv kan sees på som å se på regneark og presentere informasjon på en meningsfull måte. Men som håndboken i datajournalistikk bemerker via flere bidragsytere, er datajournalistikk viktig av følgende grunner:
- Det bidrar til å filtrere dataflyten
- Tilbyr en ny tilnærming og teknikker til historiefortelling
- En annen form for journalistikk, som ordjournalistikk eller fotojournalistikk
- Datajournalistikk er fremtiden for konsumering av innhold på nettet
- Oppdatering av ferdighetene dine
- Et middel for behandling av informasjon
- Et svar på datadrevet PR
- Å gi uavhengige tolkninger av offisiell informasjon
- Håndtering av dataflom
- Tidsbesparende aktivitet
- og mer…
Idrees Khaloon, en nyutdannet Harvard-utdannet i anvendt matematikk, er datajournalist hos Economist. Han jobber med beatjournalister, seksjonsredaktører, utviklere og designere for å finne og produsere datavisualiseringer, kartografi og infografikk som støtter journalistenes historier, og sikre best mulig representasjon av data i alle formater (trykt, app og nett) med sikte på å utvikle redaksjonelle produkter og historier med lengre perspektiv.
direktesendt spørsmål-og-svar-sesjon på Quora den 27. januar . Nedenfor finner du en oversikt over sesjonen og et sammendrag av spørsmålene og svarene.
QA-oversikt
- Datajournalistikk – en typisk dag på kontoret
- Hvordan The Economist knuser data for å dekke saker
- Avstemning og avstemningsfeil
- Noen av historiene jeg har jobbet med har inkludert:
- Modellering av resultatene av Brexit
- Å finne ut om avisleserne kunne forutsi støtte til Donald Trump
- Karriereveiledning innen datajournalistikk
Datajournalistikk – en typisk dag på kontoret
Først er dette livssyklusen til en datahistorie:
- Idégenerering
- Identifisering av eksisterende datakilder
- Rensking og sortering av dataene
- Utforsker dataene, ofte litt målløst
- Teste hypotesene dine for å finne interessante konklusjoner eller bygge en statistisk modell (vanligvis bare forklarende; prediktive modeller er mye vanskeligere)
- Skrive ned funnene dine, som alltid suppleres med konvensjonell rapportering
- Til slutt, svar på spørsmål fra redaktører og faktasjekkere før publisering
På en typisk dag vil ikke en datajournalist gjøre alle disse tingene – men han eller hun vil gjøre noen av dem.
Den mest utfordrende oppgaven jeg sannsynligvis har tatt på meg er å bygge golfmodellen . Etter at en av kollegene mine utviklet rammeverket for modellen, som tar hensyn til ting som «hot streaks» og væreffekter – i et Excel-ark, måtte jeg oversette prototypen til Python. Så måtte vi finne ut hvordan vi kunne simulere turneringer under denne modellen, noe som ikke var trivielt. Etter en uke eller to med strev, hadde vi programmet i gang bra nok til å simulere tidligere turneringer 10 000 ganger. Til tross for min beste innsats, fikk ikke Python, som er et tolket språk, i nærheten av den hastigheten vi trengte. Så vi henvendte oss til en kollega med doktorgrad i fysikk, som klarte å oversette Python-programmet mitt til C++ – noe som forbedret hastigheten vår med en størrelsesorden eller mer. Veldig gøy.
Det legges mye arbeid bak diagrammene våre før visualiseringsmagien skjer (datainnsamlingen og -behandlingen i R og Python som jeg har nevnt). Når de rensede dataene er klare, har vi to skreddersydde diagramverktøy som vi bruker til å lage diagrammer: et Excel-skript og et Adobe Illustrator-skript som konverterer dataene til et faktisk diagram.
Hvordan The Economist knuser data for å dekke saker
Så når jeg har et lovende datasett i hånden, rydder jeg opp i det og får det i analyserbar form ved hjelp av Pythons pandas-bibliotek eller R, som er det mest populære valget blant datajournalistene her. Når dataene er ryddige, utforsker jeg vanligvis litt: ser på gjennomsnitt, finner ut om noen verdier mangler eller er rare, og lager grafer av noen trender. Derfra bestemmer vi oss for de riktige diagrammene som skal følge historien. Disse kopierer jeg på maskinen min og sender deretter til en datavisualisator for å få dem inn i vår berømte stil.
Det som gjør Economist unikt er at det ikke finnes en datajournalistikkseksjon i bransjen, den er overalt. For det andre har vi som ukeavis luksuriøse tidsfrister sammenlignet med vennene våre i dagsavisene. Å produsere datahistorier tar vanligvis ganske mye tid, delvis på grunn av tiden det tar å rense og behandle rotete data. Vi er heldige nok til å kunne ta oss god tid med historier og gi dem en skikkelig grundig behandling før publisering.
Innhold fra våre partnere
Kommentarer til avstemninger og feil i avstemningen
Det grunnleggende svaret, for å si det litt kjedelig, er partiske og ikke-representative utvalg. Meningsmålinger fungerer hvis, og bare hvis, utvalget representerer hele populasjonen. Det finnes alle slags problemer som står i veien for denne gullstandarden – frafallsskjevhet (visse personer er mer sannsynlig å svare på spørsmålene dine enn andre) eller selvseleksjonsskjevhet (å gjennomføre en meningsmåling i en countryklubb ville for eksempel skjevvride utvalget ditt).
Rådataene som de fleste meningsmålere jobber med er vanligvis ganske skjeve. For eksempel kan utvalget være 60 % menn, mens den faktiske befolkningen er nærmere 50 %. For å fikse dette bruker meningsmålerne vekting, noe som ville gjort de kvinnelige svarene verdt mer. Dette fungerer ganske bra med mindre det skjer plutselige omstillinger langs ukontrollerte akser i politikken, noe som kan være det som skjedde i fjor.
Et annet område for forbedring kan være valgdeltakelsesprognoser, som vanligvis er avhengige av valgdeltakelsesmålinger fra tidligere valg eller selvrapporterte sannsynligheter. Mer avanserte modeller, som involverer individualiserte spådommer, er sannsynligvis nødvendige. Kampanjer i Amerika har allerede et forsprang på denne typen arbeid – ofte støttet av svært smarte dataforskere – og meningsmålerne kan gjøre klokt i å lære av dem.
Eksempel på historiene Idrees Kahloon har jobbet med
Modellering av resultatene av Brexit
Den største vanskeligheten med å modellere Brexit var at det ikke fantes noen analog vi kunne bruke å trene på. Min kollega James Fransham og jeg omgikk dette ved å se på meningsmålinger for å få en klar forståelse av de beste prediktorene for å stemme for å forlate eller bli. Umiddelbart kunne vi se at utdanning og sosial klasse var utrolig gode, mens prediktorer for politisk atferd som hadde fungert bra tidligere (som partitilhørighet) gjorde det eksepsjonelt dårlig. Da vi hadde identifisert de viktigste faktorene, brukte vi folketellingstall for å projisere de endelige tallene. Vi modellerte også valgdeltakelsen ved hjelp av en lignende prosedyre.
Valgnattsmodellen brukte all denne tallknusingen som en basisprediksjon (en Bayesiansk prior). Etter hvert som resultatene kom inn, skrev vi et skript som dynamisk justerte den underliggende modellen, noe som gjorde den stadig mer nøyaktig etter hvert som kvelden gikk. Dessverre for Storbritannia, men heldigvis for vår modell, spådde vi en Brexit innen en time etter at resultatene kom inn. Du kan se litt mer, inkludert de fantastiske statistiske detaljene, her .
Avisleserne støtter spådommen til Donald Trump
Det gjør det utrolig bra. Hvis du spør en velger hvor pålitelig de vurderte flere aviser, kan du forutsi stemmen deres med 88 % nøyaktighet. Det er uten å inkludere annen nyttig informasjon som rase, partitilhørighet eller utdanningsnivå. Selv om det kan være en triumf for statistikken, synes jeg det er litt nedslående at holdningene til media er så sterkt polarisert langs partilinjer.
Hva er den beste måten å forberede seg på en karriere innen datajournalistikk?
Kunnskap om tre ting er nødvendig for å bli en god datajournalist: statistikk, informatikk og skriving. Å skrive bredt og journalistikk spesifikt læres best ved å gjøre det. Hvis du er interessert i journalistikk, er den beste måten å forberede seg på å være praksisplass i lokalavisen din og prøve å skrive for skolens magasin eller campusavis. En annen vei er fagpressen, der du spesialiserer deg i et nisjefelt, men tilegner deg alle de grunnleggende ferdighetene som trengs for å skrive om et hvilket som helst emne. Det er mye lettere å lære av erfarne journalister enn å prøve å lese seg opp på slike ting. De fleste ansatte hos The Economist har for eksempel aldri formelt studert journalistikk.
Statistikk og informatikk læres best i klasserommet, fra en erfaren instruktør som kan stryke ut feil før de blir for dypt forankret. Hvis du allerede har fullført din formelle utdanning, er det ingen mangel på nettbaserte materialer og kurs som kan hjelpe deg. For en grundig innføring i statistikk, vil jeg anbefale å lese Joe Blitzstein og Jessica Hwangs utmerkede Introduction to Probability (og jobbe deg gjennom problemene!). Med det grunnlaget vil du oppdage at mange emner, som økonometri og maskinlæring, vil bli mye mer tilgjengelige.
De fleste kodere er selvlærte nå for tiden. Som med skriving er det viktigste her å gjøre. Velg et språk (Python er vanligvis enklest for nybegynnere), sett opp ting og prøv å bygge enkle programmer. Jo mer du tvinger deg selv til å skrive kode, desto mer naturlig vil det bli.






