Une journée dans la vie d'un journaliste de données - Idrees Kahloon, The Economist

Une journée type pour un journaliste de données peut se résumer à analyser des feuilles de calcul et à présenter l'information de manière pertinente. Cependant, comme le Manuel de journalisme de données Comme le soulignent plusieurs contributeurs, le journalisme de données est important pour les raisons suivantes :

Cela permet de filtrer le flux de données
Proposer une nouvelle approche et de nouvelles techniques de narration
Une autre forme de journalisme, comme le journalisme de mots ou le photojournalisme
Le journalisme de données représente l'avenir de la consommation de contenu sur le web
Mise à jour de vos compétences
Un recours pour le traitement des informations
Une réponse aux relations publiques axées sur les données
Fournir des interprétations indépendantes des informations officielles
Gérer le déluge de données
Activité permettant de gagner du temps
et plus encore…

Idrees Khaloon, jeune diplômé de Harvard en mathématiques appliquées, est journaliste de données à The Economist. Il travaille avec les journalistes spécialisés, les rédacteurs de section, les développeurs et les graphistes pour collecter et produire des visualisations de données, des cartes et des infographies qui étayent les articles des journalistes et garantissent la meilleure représentation possible des données sur tous les supports (papier, application et web), dans l'optique de développer des contenus et des reportages de fond. Compte tenu de son rôle transversal au sein de l'organisation, Idrees a animé une conférence le 27 janvier Séance de questions-réponses en direct sur QuoraVous trouverez ci-dessous le plan de la séance ainsi qu'un résumé des questions et réponses.

Plan d'assurance qualité

Journalisme de données – une journée type au bureau
Comment The Economist analyse les données pour rédiger ses articles
Sondages et erreurs de sondage
Voici quelques-uns des reportages sur lesquels j'ai travaillé :
- Modélisation des conséquences du Brexit
- Déterminer si le lectorat des journaux pouvait prédire le soutien à Donald Trump
Conseils de carrière en journalisme de données

Journalisme de données – une journée type au bureau

Voici tout d'abord le cycle de vie d'une histoire de données :

Génération d'idées
Identification des sources de données existantes
Nettoyage et mise en forme des données
Explorer les données, souvent un peu au hasard
Tester vos hypothèses pour obtenir des conclusions intéressantes ou construire un modèle statistique (généralement explicatif ; les modèles prédictifs sont beaucoup plus difficiles)
Rédiger vos conclusions, ce qui est toujours complété par un reportage classique
Enfin, il est essentiel de répondre aux rédacteurs et aux vérificateurs de faits avant la publication

Au cours d'une journée type, un journaliste de données ne réalise pas toutes ces tâches, mais il en effectue certaines. La mission la plus complexe que j'aie menée est sans doute la création de notre… modèle de golfAprès qu'un de mes collègues a développé la structure du modèle, prenant en compte des séries de victoires et les effets météorologiques (dans une feuille Excel, qui plus est), j'ai dû traduire le prototype en Python. Il nous a ensuite fallu trouver comment simuler des tournois avec ce modèle, ce qui n'était pas une mince affaire. Après une ou deux semaines de travail acharné, nous avions un programme suffisamment fonctionnel pour simuler des tournois passés 10 000 fois. Malgré tous mes efforts, Python, un langage interprété, n'atteignait pas la vitesse souhaitée. Nous nous sommes donc tournés vers un collègue docteur en physique, qui a réussi à traduire mon code Python en C++, améliorant ainsi notre vitesse d'un facteur dix, voire plus. C'était vraiment passionnant.

Un travail considérable est nécessaire avant même que la visualisation ne prenne forme (notamment la collecte et le traitement des données en R et Python, comme je l'ai mentionné). Une fois les données nettoyées et prêtes, nous utilisons deux outils de création de graphiques sur mesure : un script Excel et un script Adobe Illustrator qui transforment les données en un graphique.

Comment The Economist analyse les données pour rédiger ses articles

Une fois que j'ai un jeu de données prometteur en main, je le nettoie et le rends analysable grâce à la bibliothèque pandas de Python ou à R, le langage de prédilection des journalistes de données ici. Une fois les données bien rangées, je les explore généralement un peu : j'examine les moyennes, je repère les valeurs manquantes ou aberrantes et je trace quelques tendances. Ensuite, nous choisissons les graphiques les plus pertinents pour illustrer l'article. Je les crée sur mon ordinateur, puis je les confie à un spécialiste de la visualisation de données pour qu'il les intègre à notre style caractéristique. Ce qui rend The Economist unique, c'est qu'il n'y a pas de section dédiée au journalisme de données : il est omniprésent. De plus, en tant qu'hebdomadaire, nous bénéficions de délais de publication plus longs que nos confrères quotidiens. La production d'articles de données prend généralement beaucoup de temps, notamment en raison du nettoyage et du traitement des données brutes. Nous avons la chance de pouvoir prendre notre temps pour chaque article et de leur apporter un traitement rigoureux avant publication.

Commentaires sur les sondages et les erreurs de sondage

La réponse, pour le dire de façon un peu rébarbative, réside dans le biais et le manque de représentativité des échantillons. Un sondage n'est fiable que si l'échantillon est représentatif de l'ensemble de la population. Or, de nombreux problèmes compromettent cette norme d'excellence : le biais de non-réponse (certaines personnes sont plus enclines à répondre aux questions que d'autres) ou le biais d'autosélection (réaliser un sondage dans un club privé, par exemple, fausserait l'échantillon). Les données brutes utilisées par la plupart des sondeurs sont généralement très déséquilibrées. Par exemple, l'échantillon peut être composé à 60 % d'hommes alors que la population réelle en compte plutôt 50 %. Pour corriger ce biais, les sondeurs appliquent une pondération, ce qui donne plus de poids aux réponses des femmes. Cette méthode fonctionne assez bien, sauf en cas de réalignements politiques soudains et incontrôlés, comme cela a pu se produire l'année dernière.

Un autre axe d'amélioration concerne les projections de participation, qui s'appuient généralement, par facilité, sur les sondages de sortie des urnes des élections précédentes ou sur les probabilités déclarées par les électeurs. Des modèles plus sophistiqués, intégrant des prédictions individualisées, sont probablement nécessaires. Aux États-Unis, les campagnes électorales sont déjà bien avancées dans ce domaine – souvent grâce à l'expertise de data scientists très compétents – et les sondeurs auraient tout intérêt à s'en inspirer.

Exemple des histoires sur lesquelles Idrees Kahloon a travaillé

Modélisation des conséquences du Brexit

La principale difficulté de la modélisation du Brexit résidait dans l'absence de données analogues pour l'entraînement du modèle. Mon collègue James Fransham et moi-même avons contourné ce problème en analysant des microdonnées de sondages afin d'identifier les meilleurs prédicteurs du vote pour ou contre le Brexit. Nous avons immédiatement constaté que le niveau d'éducation et la classe sociale étaient d'excellents prédicteurs, tandis que les prédicteurs de comportement politique qui avaient bien fonctionné par le passé (comme l'appartenance à un parti) se sont révélés extrêmement faibles. Une fois les facteurs les plus importants identifiés, nous avons utilisé les données du recensement pour projeter les résultats finaux. Nous avons également modélisé le taux de participation selon une procédure similaire.

Le modèle utilisé le soir des élections s'appuyait sur l'ensemble de ces calculs comme prédiction de base (une distribution a priori bayésienne). Au fur et à mesure de l'arrivée des résultats, nous avons développé un script qui ajustait dynamiquement le modèle sous-jacent, améliorant ainsi sa précision tout au long de la soirée. Malheureusement pour le Royaume-Uni, mais heureusement pour notre modèle, nous avons prédit un Brexit moins d'une heure après la publication des résultats. Vous trouverez plus d'informations, notamment les détails statistiques, ici .

Le lectorat des journaux soutient la prédiction de Donald Trump

Ce système est incroyablement efficace. Si vous demandez à un électeur d'évaluer la fiabilité de plusieurs journaux, vous pouvez prédire son vote avec une précision de 88 %. Et ce, sans tenir compte d'autres informations utiles comme l'origine ethnique, l'appartenance politique ou le niveau d'études. Si cela peut être une réussite statistique, il est tout de même un peu décourageant de constater à quel point les opinions sur les médias sont polarisées selon les clivages partisans.

Quelle est la meilleure façon de se préparer à une carrière dans le journalisme de données ?

Pour être un bon journaliste de données, il faut maîtriser trois domaines : les statistiques, l’informatique et l’écriture. L’écriture en général, et le journalisme en particulier, s’apprennent avant tout par la pratique. Si le journalisme vous intéresse, le meilleur moyen de vous préparer est d’effectuer un stage dans un journal local et de tenter votre chance en écrivant pour le magazine ou le journal de votre école ou de votre campus. Une autre voie possible est la presse spécialisée, où vous vous spécialisez dans un domaine de niche tout en acquérant les compétences de base nécessaires pour écrire sur n’importe quel sujet. Il est bien plus facile d’apprendre auprès de journalistes expérimentés que de se documenter. La plupart des journalistes de The Economist , par exemple, n’ont jamais suivi de formation formelle en journalisme.

L'apprentissage des statistiques et de l'informatique est optimal en présentiel, auprès d'un professeur expérimenté capable de corriger les erreurs avant qu'elles ne s'enracinent. Si vous avez déjà suivi une formation académique, de nombreuses ressources et cours en ligne peuvent vous être utiles. Pour une introduction rigoureuse aux statistiques, je recommande la lecture de l'excellent ouvrage de Joe Blitzstein et Jessica Hwang, * Introduction to Probability * (et la résolution des exercices !). Grâce à ces bases, de nombreux sujets, comme l'économétrie et l'apprentissage automatique, vous paraîtront beaucoup plus accessibles.

De nos jours, la plupart des programmeurs sont autodidactes. Comme pour la programmation, le plus important est de pratiquer. Choisissez un langage (Python est généralement le plus facile pour les débutants), configurez votre environnement et essayez de créer des programmes simples. Plus vous vous entraînerez à coder, plus cela deviendra naturel.

Quels autres conseils donneriez-vous à ceux qui souhaitent devenir journaliste de données ? N'hésitez pas à ajouter vos commentaires ci-dessous.

SODP

SODP Media

Une journée dans la vie d'un journaliste de données – Idrees Kahloon, The Economist

Créé par

Vérifié par

Édité par

Table des matières

Par Vahe Arabian

Plan d'assurance qualité

Journalisme de données – une journée type au bureau

Comment The Economist analyse les données pour rédiger ses articles

Commentaires sur les sondages et les erreurs de sondage

Exemple des histoires sur lesquelles Idrees Kahloon a travaillé

Modélisation des conséquences du Brexit

Quelle est la meilleure façon de se préparer à une carrière dans le journalisme de données ?

À propos

Liens utiles

Articles en vedette

SODP

Une journée dans la vie d'un journaliste de données – Idrees Kahloon, The Economist

Créé par

Vérifié par

Édité par

Table des matières

Abonnez-vous aux analyses d'IA

Par Vahe Arabian

Plan d'assurance qualité

Journalisme de données – une journée type au bureau

Comment The Economist analyse les données pour rédiger ses articles

Commentaires sur les sondages et les erreurs de sondage

Exemple des histoires sur lesquelles Idrees Kahloon a travaillé

Modélisation des conséquences du Brexit

Quelle est la meilleure façon de se préparer à une carrière dans le journalisme de données ?

Articles similaires

Liens utiles

Articles en vedette