En dag i en datajournalists liv - Idrees Kahloon, The Economist

En dag i en datajournalists liv kan sees på som å se på regneark og presentere informasjon på en meningsfull måte, ettersom Håndbok i datajournalistikk notater via flere bidragsytere, er datajournalistikk viktig av følgende grunner:

Det bidrar til å filtrere dataflyten
Tilbyr en ny tilnærming og teknikker til historiefortelling
En annen form for journalistikk, som ordjournalistikk eller fotojournalistikk
Datajournalistikk er fremtiden for konsumering av innhold på nettet
Oppdatering av ferdighetene dine
Et middel for behandling av informasjon
Et svar på datadrevet PR
Å gi uavhengige tolkninger av offisiell informasjon
Håndtering av dataflom
Tidsbesparende aktivitet
og mer…

Idrees Khaloon, en nyutdannet Harvard-utdannet i anvendt matematikk, er datajournalist hos Economist med ansvar for å samarbeide med journalister, seksjonsredaktører, utviklere og designere for å finne og produsere datavisualiseringer, kartografi og infografikk som støtter journalistenes historier og sikre best mulig representasjon av data i alle formater (trykt, app og nett) med sikte på å utvikle redaksjonelle produkter og historier med lengre perspektiv. Gitt sin interessante, sammenflettede rolle i organisasjonen, kjørte Idrees den 27. januar en direktesendt spørsmål og svar-sesjon på QuoraNedenfor finner du en oversikt over økten og et sammendrag av spørsmålene og svarene.

QA-oversikt

Datajournalistikk – en typisk dag på kontoret
Hvordan The Economist knuser data for å dekke saker
Avstemning og avstemningsfeil
Noen av historiene jeg har jobbet med har inkludert:
- Modellering av resultatene av Brexit
- Å finne ut om avisleserne kunne forutsi støtte til Donald Trump
Karriereveiledning innen datajournalistikk

Datajournalistikk – en typisk dag på kontoret

Først er dette livssyklusen til en datahistorie:

Idégenerering
Identifisering av eksisterende datakilder
Rensking og sortering av dataene
Utforsker dataene, ofte litt målløst
Teste hypotesene dine for å finne interessante konklusjoner eller bygge en statistisk modell (vanligvis bare forklarende; prediktive modeller er mye vanskeligere)
Skrive ned funnene dine, som alltid suppleres med konvensjonell rapportering
Til slutt, svar på spørsmål fra redaktører og faktasjekkere før publisering

På en typisk dag vil ikke en datajournalist gjøre alle disse tingene – men han eller hun vil gjøre noen av dem. Den mest utfordrende oppgaven jeg sannsynligvis har tatt på meg er å bygge vår golfmodellEtter at en av kollegene mine utviklet rammeverket for modellen, som tar hensyn til ting som varme streker og væreffekter – i et Excel-ark, måtte jeg oversette prototypen til Python. Så måtte vi finne ut hvordan vi kunne simulere turneringer under denne modellen, noe som ikke var trivielt. Etter en uke eller to med kamp, hadde vi programmet i gang bra nok til å simulere tidligere turneringer 10 000 ganger. Til tross for min beste innsats, fikk ikke Python, som er et tolket språk, i nærheten av den hastigheten vi trengte. Så vi henvendte oss til en kollega med en doktorgrad i fysikk, som klarte å oversette Python-programmet mitt til C++ – noe som forbedret hastigheten vår med en størrelsesorden eller mer. Veldig gøy.

Det legges mye arbeid bak diagrammene våre før visualiseringsmagien skjer (datainnsamlingen og -behandlingen i R og Python som jeg har nevnt). Når de rensede dataene er klare, har vi to skreddersydde diagramverktøy som vi bruker til å lage diagrammer: et Excel-skript og et Adobe Illustrator-skript som konverterer dataene til et faktisk diagram.

Hvordan The Economist knuser data for å dekke saker

Så når jeg har et lovende datasett i hånden, rydder jeg opp i det og får det i analyserbar form ved hjelp av Pythons pandas-bibliotek eller R, som er det mer populære valget blant datajournalistene her. Når dataene er ryddige, utforsker jeg vanligvis litt: ser på gjennomsnitt, finner ut om noen verdier mangler eller er rare, og lager grafer av noen trender. Derfra bestemmer vi oss for de riktige diagrammene som skal følge historien. Disse lager jeg på maskinen min og sender deretter til en datavisualisator for å bringe dem inn i vår berømte stil. Det som gjør Economist unik, er at det ikke finnes en datajournalistikkseksjon i bransjen, den er overalt. For det andre har vi som ukeavis luksuriøse tidsfrister sammenlignet med vennene våre i dagsavisene. Å produsere datahistorier tar vanligvis ganske mye tid, delvis på grunn av tiden det tar å rense og behandle rotete data. Vi er heldige nok til å kunne ta oss god tid med historier og gi dem en grundig behandling før publisering.

Kommentarer til avstemninger og feil i avstemningen

Det grunnleggende svaret, for å si det litt kjedelig, er partiske og ikke-representative utvalg. Meningsmålinger fungerer hvis, og bare hvis, utvalget representerer hele befolkningen. Det finnes alle slags problemer som står i veien for denne gullstandarden – frafallsskjevhet (visse personer er mer sannsynlig å svare på spørsmålene dine enn andre) eller selvseleksjonsskjevhet (å gjennomføre en meningsmåling i en countryklubb ville for eksempel skjevt utvalget ditt). Rådataene som de fleste meningsmålere jobber med er vanligvis ganske skjeve. For eksempel kan utvalget være 60 % menn når den faktiske befolkningen er mer som 50 %. For å fikse dette bruker meningsmålere vekting, noe som ville gjort de kvinnelige svarene verdt mer. Dette fungerer ganske bra med mindre det er plutselige omstillinger langs ukontrollerte akser i politikken, noe som kan være det som skjedde i fjor.

Et annet område for forbedring kan være valgdeltakelsesprognoser, som vanligvis er avhengige av valgdeltakelsesmålinger fra tidligere valg eller selvrapporterte sannsynligheter. Mer avanserte modeller, som involverer individualiserte spådommer, er sannsynligvis nødvendige. Kampanjer i Amerika har allerede et forsprang på denne typen arbeid – ofte støttet av svært smarte dataforskere – og meningsmålerne kan gjøre klokt i å lære av dem.

Eksempel på historiene Idrees Kahloon har jobbet med

Modellering av resultatene av Brexit

Den største vanskeligheten med å modellere Brexit var at det ikke fantes noen analog vi kunne bruke å trene på. Min kollega James Fransham og jeg omgikk dette ved å se på meningsmålinger for å få en klar forståelse av de beste prediktorene for å stemme for å forlate eller bli. Umiddelbart kunne vi se at utdanning og sosial klasse var utrolig gode, mens prediktorer for politisk atferd som hadde fungert bra tidligere (som partitilhørighet) gjorde det eksepsjonelt dårlig. Da vi hadde identifisert de viktigste faktorene, brukte vi folketellingstall for å projisere de endelige tallene. Vi modellerte også valgdeltakelsen ved hjelp av en lignende prosedyre.

Valgnattsmodellen brukte all denne tallknusingen som en basisprediksjon (en Bayesiansk prior). Etter hvert som resultatene kom inn, skrev vi et skript som dynamisk justerte den underliggende modellen, noe som gjorde den stadig mer nøyaktig etter hvert som kvelden gikk. Dessverre for Storbritannia, men heldigvis for vår modell, spådde vi en Brexit innen en time etter at resultatene kom inn. Du kan se litt mer, inkludert de fantastiske statistiske detaljene, her.

Avisleserne støtter spådommen til Donald Trump

Det gjør det utrolig bra. Hvis du spør en velger hvor pålitelig de vurderte flere aviser, kan du forutsi stemmen deres med 88 % nøyaktighet. Det er uten å inkludere annen nyttig informasjon som rase, partitilhørighet eller utdanningsnivå. Selv om det kan være en triumf for statistikken, synes jeg det er litt nedslående at holdningene til media er så sterkt polarisert langs partilinjer.

Hva er den beste måten å forberede seg på en karriere innen datajournalistikk?

Kunnskap om tre ting er nødvendig for å bli en god datajournalist: statistikk, informatikk og skriving. Å skrive bredt og journalistikk spesifikt læres best ved å gjøre det. Hvis du er interessert i journalistikk, er den beste måten å forberede seg på å være praksisplass i lokalavisen din og prøve å skrive for skolens magasin eller campusavis. En annen vei er fagpressen, der du spesialiserer deg i et nisjefelt, men tilegner deg alle de grunnleggende ferdighetene som trengs for å skrive om et hvilket som helst emne. Det er mye lettere å lære av erfarne journalister enn å prøve å lese seg opp på slike ting. De fleste ansatte hos The Economist har for eksempel aldri formelt studert journalistikk.

Statistikk og informatikk læres best i klasserommet, fra en erfaren instruktør som kan stryke ut feil før de blir for dypt forankret. Hvis du allerede har fullført din formelle utdanning, er det ingen mangel på nettbaserte materialer og kurs som kan hjelpe deg. For en grundig innføring i statistikk, vil jeg anbefale å lese Joe Blitzstein og Jessica Hwangs utmerkede Introduction to Probability (og jobbe deg gjennom problemene!). Med det grunnlaget vil du oppdage at mange emner, som økonometri og maskinlæring, vil bli mye mer tilgjengelige.

De fleste kodere er selvlærte nå for tiden. Som med skriving er det viktigste her å gjøre. Velg et språk (Python er vanligvis enklest for nybegynnere), sett opp ting og prøv å bygge enkle programmer. Jo mer du tvinger deg selv til å skrive kode, desto mer naturlig vil det bli.

Hvilke andre råd ville du gitt om det å være datajournalist? Legg gjerne til kommentarene dine nedenfor.