Une journée dans la vie d'un journaliste de données peut être considérée comme l'examen de feuilles de calcul et la présentation d'informations de manière significative, cependant, comme le manuel de journalisme de données via plusieurs contributeurs, le journalisme de données est important pour les raisons suivantes :
- Il aide à filtrer le flux de données
- Offrir une nouvelle approche et de nouvelles techniques de narration
- Une autre forme de journalisme, comme il y a des mots journalisme ou photojournalisme
- Le journalisme de données est l'avenir de la consommation de contenu sur le Web
- Mise à jour de vos compétences
- Un recours pour le traitement des informations
- Une réponse aux relations publiques basées sur les données
- Fournir des interprétations indépendantes des informations officielles
- Faire face au déluge de données
- Activité gain de temps
- et plus…
Idrees Khaloon, récemment diplômée de Harvard en mathématiques appliquées, est journaliste de données chez The Economist, chargée de travailler avec les journalistes, les éditeurs de section, les développeurs et les concepteurs pour rechercher et produire des visualisations de données, des cartographies et des infographies soutenant les histoires des journalistes et assurer la meilleure représentation de données dans tous les formats (imprimés, applications et web) en vue de développer des produits éditoriaux et des histoires à plus long terme.
Compte tenu de son rôle croisé intéressant dans l'organisation, le 27 janvier, Idrees a organisé une session de questions-réponses en direct sur Quora . Vous trouverez ci-dessous le plan de la session et un résumé des questions et réponses.
Aperçu du contrôle qualité
- Journalisme de données – une journée type au bureau
- Comment The Economist analyse les données pour couvrir les histoires
- Interrogation et erreurs d'interrogation
- Certaines des histoires sur lesquelles j'ai travaillé incluent:
- Modélisation des résultats du Brexit
- Déterminer si le lectorat des journaux pourrait prédire le soutien à Donald Trump
- Conseils de carrière en journalisme de données
Journalisme de données – une journée type au bureau
Tout d'abord, voici le cycle de vie d'une histoire de données :
- La génération d'idées
- Identification des sources de données existantes
- Nettoyer et mettre en forme les données
- Explorer les données, souvent un peu sans but
- Tester vos hypothèses pour des conclusions intéressantes ou construire un modèle statistique (généralement juste explicatif ; les modèles prédictifs sont beaucoup plus difficiles)
- Rédaction de vos constats, toujours complétée par un reporting classique
- Enfin, répondre aux éditeurs et aux vérificateurs de faits avant de publier
Au cours d'une journée typique, un journaliste de données ne fera pas toutes ces choses, mais il en fera quelques-unes.
La tâche la plus difficile que j'aie jamais entreprise est probablement la construction de notre modèle de golf . Après qu'un de mes collègues ait développé le cadre du modèle, qui prend en compte des éléments tels que les traînées de chaleur et les effets météorologiques - dans une feuille Excel rien de moins -, j'ai dû traduire le prototype en Python. Ensuite, il a fallu trouver comment simuler des tournois sous ce modèle, ce qui n'était pas anodin. Après une semaine ou deux de combats, le programme fonctionnait suffisamment bien pour simuler les tournois passés 10 000 fois. Malgré tous mes efforts, Python, qui est un langage interprété, n'obtenait pas la vitesse dont nous avions besoin. Nous nous sommes donc tournés vers un collègue titulaire d'un doctorat en physique, qui a réussi à traduire mon Python en C++, améliorant notre vitesse d'un ordre de grandeur ou plus. Très drôle.
Beaucoup de travail est consacré à nos graphiques avant que la magie de la visualisation ne se produise (la collecte et le traitement des données dans R et Python que j'ai mentionnés). Une fois que les données nettoyées sont prêtes, nous disposons de deux outils graphiques sur mesure que nous utilisons pour créer des graphiques : un script Excel et un script Adobe Illustrator qui convertit les données en un graphique réel.
Comment The Economist analyse les données pour couvrir les histoires
Donc, une fois que j'ai un ensemble de données prometteur en main, je le nettoie et le mets en forme analysable en utilisant la bibliothèque pandas de Python ou R, qui est le choix le plus populaire parmi les journalistes de données ici. Une fois que les données sont bien rangées, j'explore généralement un peu : regardez les moyennes, trouvez si des valeurs sont manquantes ou bizarres, tracez quelques tendances. À partir de là, nous déciderions des bons graphiques pour accompagner l'histoire. Je les modélise sur ma machine, puis je les transmets à un visualiseur de données pour les intégrer à notre célèbre style.
Ce qui rend The Economist unique, c'est qu'il n'y a pas de section de journalisme de données dans l'entreprise, elle est partout. Deuxièmement, en tant qu'hebdomadaire, nous avons des délais luxueux par rapport à nos amis des quotidiens. La production d'histoires de données prend généralement un peu de temps, en partie à cause du temps nécessaire pour nettoyer et traiter les données désordonnées. Nous avons la chance de pouvoir prendre notre temps avec les histoires et de leur donner un traitement suffisamment rigoureux avant de les publier.
Commentaires sur les sondages et les erreurs de sondage
La réponse de base, pour le dire un peu ennuyeux, est des échantillons biaisés et non représentatifs. Le sondage fonctionne si, et seulement si, l'échantillon représente l'ensemble de la population. Il y a toutes sortes de problèmes qui entravent cet étalon-or - biais de non-réponse (certaines personnes sont plus susceptibles de répondre à vos questions que d'autres) ou biais d'auto-sélection (réaliser un sondage dans un country club fausserait votre échantillon , par exemple).
Les données brutes avec lesquelles la plupart des sondeurs travaillent sont généralement assez biaisées. Par exemple, l'échantillon peut être composé à 60 % d'hommes alors que la population réelle est plutôt de 50 %. Pour résoudre ce problème, les sondeurs appliquent une pondération, ce qui donnerait plus de valeur aux réponses féminines. Cela fonctionne plutôt bien à moins qu'il n'y ait des réalignements soudains sur des axes incontrôlés de la politique, ce qui pourrait être ce qui s'est passé l'année dernière.
Un autre domaine à améliorer pourrait être les projections de participation, qui reposent généralement paresseusement sur les sondages à la sortie des élections précédentes ou sur les probabilités autodéclarées. Des modèles plus sophistiqués, impliquant des prédictions individualisées, sont probablement nécessaires. Les campagnes américaines ont déjà une longueur d'avance sur ce type de travail - souvent soutenues par des scientifiques de données très intelligents - et les sondeurs feraient bien d'apprendre d'eux.
Exemple des histoires sur lesquelles Idrees Kahloon a travaillé
Modélisation des résultats du Brexit
La plus grande difficulté de la modélisation du Brexit était qu'il n'y avait pas d'analogue sur lequel nous pouvions nous entraîner. Mon collègue James Fransham et moi avons contourné ce problème en examinant les microdonnées des sondages pour avoir une idée claire des meilleurs prédicteurs du vote Leave or Remain. Immédiatement, nous avons pu voir que l'éducation et la classe sociale étaient incroyablement bonnes, alors que les prédicteurs du comportement politique qui avaient bien fonctionné dans le passé (comme l'affiliation à un parti) avaient exceptionnellement mal fonctionné. Une fois que nous avions identifié les facteurs les plus importants, nous avons utilisé les chiffres du recensement pour projeter les décomptes finaux. Nous avons également modélisé la participation à l'aide d'une procédure similaire.
Le modèle de la nuit des élections a utilisé toute cette analyse des chiffres comme prédiction de base (un a priori bayésien). Au fur et à mesure que les résultats arrivaient, nous avons écrit un script qui ajustait dynamiquement le modèle sous-jacent, le rendant de plus en plus précis au fil de la nuit. Malheureusement pour le Royaume-Uni, mais heureusement pour notre modèle, nous prédisions un Brexit dans l'heure suivant l'arrivée des résultats. Vous pouvez en voir un peu plus, y compris les détails statistiques glorieux, ici .
Le lectorat des journaux soutient la prédiction de Donald Trump
Ça marche étonnamment bien. Si vous demandez à un électeur à quel point il a évalué la fiabilité de plusieurs journaux, vous pouvez prédire son vote avec une précision de 88 %. C'est sans incorporer aucune autre information utile comme la race, l'affiliation à un parti ou le niveau d'éducation. Bien que cela puisse être un triomphe pour les statistiques, je pense qu'il est un peu décourageant que les attitudes envers les médias soient si fortement polarisées selon des lignes partisanes.
Quelle est la meilleure façon de se préparer à une carrière dans le journalisme de données ?
La connaissance de trois choses est nécessaire pour être un bon journaliste de données : les statistiques, l'informatique et l'écriture. L'écriture au sens large et le journalisme en particulier s'apprennent mieux par la pratique. Si le journalisme vous intéresse, la meilleure façon de vous préparer est de faire un stage dans votre journal local et d'essayer d'écrire pour le magazine de votre école ou le journal du campus. Une autre avenue est la presse spécialisée, dans laquelle vous vous spécialisez dans un domaine de niche mais acquérez toutes les compétences de base nécessaires pour écrire sur n'importe quel sujet. Il est beaucoup plus facile d'apprendre de journalistes expérimentés que d'essayer de lire sur ce sujet. La plupart des employés de The Economist n'ont jamais étudié formellement le journalisme, par exemple.
Les statistiques et l'informatique s'apprennent mieux en classe, auprès d'un instructeur expérimenté qui peut aplanir les erreurs avant qu'elles ne soient trop profondément enracinées. Si vous avez déjà terminé votre éducation formelle, il ne manque pas de matériel et de cours en ligne qui peuvent vous aider. Pour une introduction rigoureuse aux statistiques, je vous recommande de lire l'excellent Introduction to Probability de (et de résoudre les problèmes !). Avec cette base, vous constaterez que de nombreux sujets, comme l'économétrie et l'apprentissage automatique, deviendront beaucoup plus accessibles.
La plupart des codeurs sont autodidactes de nos jours. Comme pour l'écriture, la chose la plus importante ici est de faire. Choisissez un langage (Python a tendance à être plus facile pour les débutants), configurez les choses et essayez de créer des programmes simples. Plus vous vous forcez à écrire du code, plus cela deviendra naturel.