Ein Tag im Leben eines Datenjournalisten kann so gesehen werden, als würde man sich Tabellenkalkulationen ansehen und Informationen auf sinnvolle Weise präsentieren, aber wie das Datenjournalismus-Handbuch über mehrere Mitwirkende anmerkt, ist Datenjournalismus aus folgenden Gründen wichtig:
- Es hilft, den Datenfluss zu filtern
- Bereitstellung eines neuen Ansatzes und neuer Techniken für das Geschichtenerzählen
- Eine andere Form des Journalismus, wie es die Wörter Journalismus oder Fotojournalismus gibt
- Datenjournalismus ist die Zukunft des Konsumierens von Inhalten im Web
- Aktualisieren Sie Ihre Fähigkeiten
- Ein Heilmittel für die Verarbeitung von Informationen
- Eine Antwort auf datengetriebene PR
- Bereitstellung unabhängiger Interpretationen offizieller Informationen
- Umgang mit der Datenflut
- Zeitsparende Tätigkeit
- und mehr…
Idrees Khaloon, ein frischgebackener Harvard-Absolvent in Angewandter Mathematik, ist Datenjournalist beim Economist und verantwortlich für die Zusammenarbeit mit Top-Journalisten, Abschnittsredakteuren, Entwicklern und Designern, um Datenvisualisierungen, Kartografien und Infografiken zu beschaffen und zu produzieren, die die Geschichten der Journalisten unterstützen und die beste Darstellung gewährleisten Daten in allen Formaten (Print, App und Web) mit dem Ziel, redaktionelle Produkte und Geschichten mit längerer Sicht zu entwickeln.
Angesichts seiner interessanten Rolle in der Organisation führte Idrees am 27. Januar eine Live-Q&A-Sitzung auf Quora durch . Nachfolgend finden Sie den Ablauf der Sitzung und eine Zusammenfassung der Fragen und Antworten.
QA-Gliederung
- Datenjournalismus – ein typischer Büroalltag
- Wie The Economist Daten verarbeitet, um Geschichten zu verfassen
- Abruf und Abruffehler
- Einige der Geschichten, an denen ich gearbeitet habe, waren:
- Modellierung der Folgen des Brexit
- Herausarbeiten, ob die Zeitungsleser Unterstützung für Donald Trump vorhersagen könnten
- Karriereberatung für Datenjournalismus
Datenjournalismus – ein typischer Büroalltag
Hier ist zunächst der Lebenszyklus einer Data Story:
- Ideengenerierung
- Identifizieren vorhandener Datenquellen
- Daten bereinigen und in Form bringen
- Erkunden der Daten, oft etwas ziellos
- Testen Sie Ihre Hypothesen auf interessante Schlussfolgerungen oder erstellen Sie ein statistisches Modell (normalerweise nur erklärend; Vorhersagemodelle sind viel schwieriger)
- Aufschreiben Ihrer Befunde, immer ergänzt durch herkömmliches Reporting
- Zu guter Letzt Antworten auf Redakteure und Faktenprüfer vor der Veröffentlichung
An einem typischen Tag wird ein Datenjournalist nicht all diese Dinge tun – aber er oder sie wird einige davon tun.
Die wohl herausforderndste Aufgabe, die ich übernommen habe, ist wahrscheinlich der Bau unseres Golfmodells . Nachdem einer meiner Kollegen das Framework für das Modell, das unter anderem Hitzeperioden und Wettereffekte berücksichtigt, in einem Excel-Sheet entwickelt hatte, musste ich den Prototypen in Python übersetzen. Dann mussten wir herausfinden, wie man Turniere nach diesem Modell simuliert, was nicht trivial war. Nach ein oder zwei Wochen des Kampfes funktionierte das Programm gut genug, um vergangene Turniere 10.000 Mal zu simulieren. Trotz meiner Bemühungen erreichte Python, eine interpretierte Sprache, nicht annähernd die Geschwindigkeit, die wir brauchten. Also wandten wir uns an einen Kollegen mit einem Doktortitel in Physik, der es geschafft hat, mein Python in C++ zu übersetzen – und unsere Geschwindigkeit um eine Größenordnung oder mehr verbessert hat. Sehr lustig.
In unsere Diagramme fließt viel Arbeit, bevor die Visualisierungsmagie stattfindet (die Datenerfassung und -verarbeitung in R und Python, die ich erwähnt habe). Sobald die bereinigten Daten fertig sind, verfügen wir über zwei maßgeschneiderte Diagrammwerkzeuge, mit denen wir Diagramme erstellen: ein Excel-Skript und ein Adobe Illustrator-Skript, das die Daten in ein tatsächliches Diagramm umwandelt.
Wie The Economist Daten verarbeitet, um Geschichten zu verfassen
Sobald ich also einen vielversprechenden Datensatz in der Hand habe, bereinige ich ihn und bringe ihn mit Pythons Pandas-Bibliothek oder R, die unter den Datenjournalisten hier die beliebtere Wahl ist, in eine analysierbare Form. Sobald die Daten sauber sind, werde ich normalerweise ein wenig nachforschen: Durchschnitte ansehen, feststellen, ob Werte fehlen oder seltsam sind, einige Trends grafisch darstellen. Von dort aus würden wir uns für die richtigen Diagramme entscheiden, um die Geschichte zu begleiten. Diese mache ich auf meiner Maschine nach und gebe sie dann an einen Datenvisualisierer weiter, um sie in unseren berühmten Stil zu bringen.
Was den Economist einzigartig macht, ist, dass es in der Branche keine Abteilung für Datenjournalismus gibt, sondern überall. Zweitens haben wir als Wochenzeitung luxuriöse Fristen im Vergleich zu unseren Freunden bei den Tageszeitungen. Das Produzieren von Data Stories nimmt normalerweise ziemlich viel Zeit in Anspruch, teilweise wegen der Zeit, die es braucht, um chaotische Daten zu bereinigen und zu verarbeiten. Wir haben das Glück, uns mit Geschichten Zeit nehmen zu können und sie vor der Veröffentlichung einer gründlichen Behandlung zu unterziehen.
Kommentare zu Abfragen und Abfragefehlern
Die grundlegende Antwort, um es etwas langweilig auszudrücken, sind voreingenommene und nicht repräsentative Stichproben. Umfragen funktionieren nur dann, wenn die Stichprobe die gesamte Bevölkerung repräsentiert. Es gibt alle möglichen Probleme, die diesem Goldstandard im Wege stehen – Non-Response-Bias (bestimmte Personen antworten eher auf Ihre Fragen als andere) oder Self-Selection-Bias (eine Umfrage in einem Country Club würde Ihre Stichprobe verzerren). , zum Beispiel).
Die Rohdaten, mit denen die meisten Meinungsforscher arbeiten, sind normalerweise ziemlich verzerrt. Beispielsweise kann die Stichprobe zu 60 % aus Männern bestehen, wenn die tatsächliche Bevölkerung eher 50 % ausmacht. Um dies zu beheben, wenden Meinungsforscher eine Gewichtung an, wodurch die weiblichen Antworten mehr wert wären. Das funktioniert ziemlich gut, es sei denn, es gibt plötzliche Neuausrichtungen entlang unkontrollierter Achsen in der Politik, was letztes Jahr geschehen sein könnte.
Ein weiterer verbesserungswürdiger Bereich könnten Wahlbeteiligungsprognosen sein, die sich normalerweise faul auf Umfragen zum Ausgang früherer Wahlen oder selbstberichtete Wahrscheinlichkeiten stützen. Ausgefallenere Modelle mit individualisierten Vorhersagen sind wahrscheinlich erforderlich. Kampagnen in Amerika haben bereits einen Vorsprung bei dieser Art von Arbeit – oft unterstützt von sehr cleveren Datenwissenschaftlern – und Meinungsforscher könnten gut daran tun, von ihnen zu lernen.
Beispiel für die Geschichten, an denen Idrees Kahloon gearbeitet hat
Modellierung der Folgen des Brexit
Die größte Schwierigkeit bei der Modellierung des Brexit bestand darin, dass es kein Analogon gab, mit dem wir trainieren konnten. Mein Kollege James Fransham und ich haben dies umgangen, indem wir uns die Mikrodaten von Umfragen angesehen haben, um ein klares Gefühl für die besten Prädiktoren für die Wahl von „Leave or Remain“ zu bekommen. Wir konnten sofort sehen, dass Bildung und soziale Klasse unglaublich gut waren, während Prädiktoren für politisches Verhalten, die in der Vergangenheit gut funktioniert hatten (wie die Parteizugehörigkeit), außergewöhnlich schlecht abschnitten. Nachdem wir die wichtigsten Faktoren identifiziert hatten, verwendeten wir Volkszählungszahlen, um die endgültigen Zahlen zu projizieren. Wir haben auch die Wahlbeteiligung mit einem ähnlichen Verfahren modelliert.
Das Wahlnachtmodell verwendete all diese Zahlenverarbeitung als Basisvorhersage (ein Bayes'scher Prior). Als die Ergebnisse eintrafen, schrieben wir ein Skript, das das zugrunde liegende Modell dynamisch anpasste und es im Laufe der Nacht immer genauer machte. Unglücklicherweise für das Vereinigte Königreich, aber zum Glück für unser Modell, prognostizierten wir einen Brexit innerhalb einer Stunde nach Eingang der Ergebnisse. Etwas mehr, einschließlich der glorreichen statistischen Details, können Sie hier sehen .
Zeitungsleser unterstützen Vorhersage von Donald Trump
Es tut erstaunlich gut. Wenn Sie einen Wähler fragen, wie vertrauenswürdig er mehrere Zeitungen bewertet hat, können Sie seine Stimme mit einer Genauigkeit von 88 % vorhersagen. Das ist ohne Einbeziehung anderer hilfreicher Informationen wie Rasse, Parteizugehörigkeit oder Bildungsniveau. Während es für die Statistik ein Triumph sein mag, finde ich es ein bisschen entmutigend, dass die Einstellungen gegenüber den Medien so stark entlang parteiischer Linien polarisiert sind.
Wie bereitet man sich am besten auf eine Karriere im Datenjournalismus vor?
Um ein guter Datenjournalist zu sein, braucht man drei Dinge: Statistik, Informatik und Schreiben. Schreiben im Allgemeinen und Journalismus im Besonderen lernt man am besten, indem man es tut. Wenn Sie sich für Journalismus interessieren, bereiten Sie sich am besten vor, indem Sie ein Praktikum bei Ihrer Lokalzeitung machen und versuchen, für das Magazin Ihrer Schule oder die Campuszeitung zu schreiben. Ein weiterer Weg ist die Fachpresse, in der Sie sich auf ein Nischengebiet spezialisieren, sich aber alle grundlegenden Fähigkeiten aneignen, die erforderlich sind, um über ein beliebiges Thema zu schreiben. Es ist viel einfacher, von erfahrenen Journalisten zu lernen, als zu versuchen, sich über dieses Zeug zu informieren. Die meisten Mitarbeiter von The Economist haben zum Beispiel nie offiziell Journalismus studiert.
Statistik und Informatik werden am besten im Klassenzimmer gelernt, von einem erfahrenen Lehrer, der Fehler ausbügeln kann, bevor sie zu tief verwurzelt sind. Wenn Sie Ihre formale Ausbildung bereits abgeschlossen haben, gibt es keinen Mangel an Online-Materialien und -Kursen, die Ihnen helfen können. Für eine gründliche Einführung in die Statistik würde ich empfehlen, Joe Blitzsteins und Jessica Hwangs hervorragende Introduction to Probability zu (und die Probleme durchzuarbeiten!). Mit dieser Basis werden Sie feststellen, dass viele Themen wie Ökonometrie und maschinelles Lernen viel zugänglicher werden.
Die meisten Programmierer sind heutzutage Autodidakten. Wie beim Schreiben ist auch hier das Tun das Wichtigste. Wählen Sie eine Sprache aus (Python ist für Anfänger tendenziell am einfachsten), richten Sie die Dinge ein und versuchen Sie, einfache Programme zu erstellen. Je mehr Sie sich zwingen, Code zu schreiben, desto selbstverständlicher wird es.