- Cela permet de filtrer le flux de données
- Proposer une nouvelle approche et de nouvelles techniques de narration
- Une autre forme de journalisme, comme le journalisme de mots ou le photojournalisme
- Le journalisme de données représente l'avenir de la consommation de contenu sur le web
- Mise à jour de vos compétences
- Un recours pour le traitement des informations
- Une réponse aux relations publiques axées sur les données
- Fournir des interprétations indépendantes des informations officielles
- Gérer le déluge de données
- Activité permettant de gagner du temps
- et plus encore…
Plan d'assurance qualité
- Journalisme de données – une journée type au bureau
- Comment The Economist analyse les données pour rédiger ses articles
- Sondages et erreurs de sondage
- Voici quelques-uns des reportages sur lesquels j'ai travaillé :
- Modélisation des conséquences du Brexit
- Déterminer si le lectorat des journaux pouvait prédire le soutien à Donald Trump
- Conseils de carrière en journalisme de données
Journalisme de données – une journée type au bureau
Voici tout d'abord le cycle de vie d'une histoire de données :- Génération d'idées
- Identification des sources de données existantes
- Nettoyage et mise en forme des données
- Explorer les données, souvent un peu au hasard
- Tester vos hypothèses pour obtenir des conclusions intéressantes ou construire un modèle statistique (généralement explicatif ; les modèles prédictifs sont beaucoup plus difficiles)
- Rédiger vos conclusions, ce qui est toujours complété par un reportage classique
- Enfin, il est essentiel de répondre aux rédacteurs et aux vérificateurs de faits avant la publication
Un travail considérable est nécessaire avant même que la visualisation ne prenne forme (notamment la collecte et le traitement des données en R et Python, comme je l'ai mentionné). Une fois les données nettoyées et prêtes, nous utilisons deux outils de création de graphiques sur mesure : un script Excel et un script Adobe Illustrator qui transforment les données en un graphique.
Comment The Economist analyse les données pour rédiger ses articles
Une fois que j'ai un jeu de données prometteur en main, je le nettoie et le rends analysable grâce à la bibliothèque pandas de Python ou à R, le langage de prédilection des journalistes de données ici. Une fois les données bien rangées, je les explore généralement un peu : j'examine les moyennes, je repère les valeurs manquantes ou aberrantes et je trace quelques tendances. Ensuite, nous choisissons les graphiques les plus pertinents pour illustrer l'article. Je les crée sur mon ordinateur, puis je les confie à un spécialiste de la visualisation de données pour qu'il les intègre à notre style caractéristique. Ce qui rend The Economist unique, c'est qu'il n'y a pas de section dédiée au journalisme de données : il est omniprésent. De plus, en tant qu'hebdomadaire, nous bénéficions de délais de publication plus longs que nos confrères quotidiens. La production d'articles de données prend généralement beaucoup de temps, notamment en raison du nettoyage et du traitement des données brutes. Nous avons la chance de pouvoir prendre notre temps pour chaque article et de leur apporter un traitement rigoureux avant publication.Commentaires sur les sondages et les erreurs de sondage
La réponse, pour le dire de façon un peu rébarbative, réside dans le biais et le manque de représentativité des échantillons. Un sondage n'est fiable que si l'échantillon est représentatif de l'ensemble de la population. Or, de nombreux problèmes compromettent cette norme d'excellence : le biais de non-réponse (certaines personnes sont plus enclines à répondre aux questions que d'autres) ou le biais d'autosélection (réaliser un sondage dans un club privé, par exemple, fausserait l'échantillon). Les données brutes utilisées par la plupart des sondeurs sont généralement très déséquilibrées. Par exemple, l'échantillon peut être composé à 60 % d'hommes alors que la population réelle en compte plutôt 50 %. Pour corriger ce biais, les sondeurs appliquent une pondération, ce qui donne plus de poids aux réponses des femmes. Cette méthode fonctionne assez bien, sauf en cas de réalignements politiques soudains et incontrôlés, comme cela a pu se produire l'année dernière.Un autre axe d'amélioration concerne les projections de participation, qui s'appuient généralement, par facilité, sur les sondages de sortie des urnes des élections précédentes ou sur les probabilités déclarées par les électeurs. Des modèles plus sophistiqués, intégrant des prédictions individualisées, sont probablement nécessaires. Aux États-Unis, les campagnes électorales sont déjà bien avancées dans ce domaine – souvent grâce à l'expertise de data scientists très compétents – et les sondeurs auraient tout intérêt à s'en inspirer.
Exemple des histoires sur lesquelles Idrees Kahloon a travaillé
Modélisation des conséquences du Brexit
La principale difficulté de la modélisation du Brexit résidait dans l'absence de données analogues pour l'entraînement du modèle. Mon collègue James Fransham et moi-même avons contourné ce problème en analysant des microdonnées de sondages afin d'identifier les meilleurs prédicteurs du vote pour ou contre le Brexit. Nous avons immédiatement constaté que le niveau d'éducation et la classe sociale étaient d'excellents prédicteurs, tandis que les prédicteurs de comportement politique qui avaient bien fonctionné par le passé (comme l'appartenance à un parti) se sont révélés extrêmement faibles. Une fois les facteurs les plus importants identifiés, nous avons utilisé les données du recensement pour projeter les résultats finaux. Nous avons également modélisé le taux de participation selon une procédure similaire.
Le modèle utilisé le soir des élections s'appuyait sur l'ensemble de ces calculs comme prédiction de base (une distribution a priori bayésienne). Au fur et à mesure de l'arrivée des résultats, nous avons développé un script qui ajustait dynamiquement le modèle sous-jacent, améliorant ainsi sa précision tout au long de la soirée. Malheureusement pour le Royaume-Uni, mais heureusement pour notre modèle, nous avons prédit un Brexit moins d'une heure après la publication des résultats. Vous trouverez plus d'informations, notamment les détails statistiques, ici .
Le lectorat des journaux soutient la prédiction de Donald Trump
Ce système est incroyablement efficace. Si vous demandez à un électeur d'évaluer la fiabilité de plusieurs journaux, vous pouvez prédire son vote avec une précision de 88 %. Et ce, sans tenir compte d'autres informations utiles comme l'origine ethnique, l'appartenance politique ou le niveau d'études. Si cela peut être une réussite statistique, il est tout de même un peu décourageant de constater à quel point les opinions sur les médias sont polarisées selon les clivages partisans.
Quelle est la meilleure façon de se préparer à une carrière dans le journalisme de données ?
Pour être un bon journaliste de données, il faut maîtriser trois domaines : les statistiques, l’informatique et l’écriture. L’écriture en général, et le journalisme en particulier, s’apprennent avant tout par la pratique. Si le journalisme vous intéresse, le meilleur moyen de vous préparer est d’effectuer un stage dans un journal local et de tenter votre chance en écrivant pour le magazine ou le journal de votre école ou de votre campus. Une autre voie possible est la presse spécialisée, où vous vous spécialisez dans un domaine de niche tout en acquérant les compétences de base nécessaires pour écrire sur n’importe quel sujet. Il est bien plus facile d’apprendre auprès de journalistes expérimentés que de se documenter. La plupart des journalistes de The Economist , par exemple, n’ont jamais suivi de formation formelle en journalisme.
L'apprentissage des statistiques et de l'informatique est optimal en présentiel, auprès d'un professeur expérimenté capable de corriger les erreurs avant qu'elles ne s'enracinent. Si vous avez déjà suivi une formation académique, de nombreuses ressources et cours en ligne peuvent vous être utiles. Pour une introduction rigoureuse aux statistiques, je recommande la lecture de l'excellent ouvrage de Joe Blitzstein et Jessica Hwang, * Introduction to Probability * (et la résolution des exercices !). Grâce à ces bases, de nombreux sujets, comme l'économétrie et l'apprentissage automatique, vous paraîtront beaucoup plus accessibles.
De nos jours, la plupart des programmeurs sont autodidactes. Comme pour la programmation, le plus important est de pratiquer. Choisissez un langage (Python est généralement le plus facile pour les débutants), configurez votre environnement et essayez de créer des programmes simples. Plus vous vous entraînerez à coder, plus cela deviendra naturel.





