Un día en la vida de un periodista de datos - Idrees Kahloon, The Economist

Un día en la vida de un periodista de datos puede verse como mirar hojas de cálculo y presentar información de manera significativa, sin embargo, a medida que Manual de periodismo de datos Según notas de varios colaboradores, el periodismo de datos es importante por las siguientes razones:

Ayuda a filtrar el flujo de datos
Proporcionando un nuevo enfoque y técnicas para contar historias.
Una forma diferente de periodismo, como existen las palabras periodismo o fotoperiodismo
El periodismo de datos es el futuro del consumo de contenidos en la web
Actualizando sus habilidades
Un remedio para procesar la información
Una respuesta a las relaciones públicas basadas en datos
Proporcionar interpretaciones independientes a la información oficial
Cómo afrontar el aluvión de datos
Actividad que ahorra tiempo
y más…

Idrees Khaloon, recién graduado de Harvard en Matemáticas Aplicadas, es periodista de datos en The Economist. Se encarga de trabajar con periodistas especializados, editores de sección, desarrolladores y diseñadores para obtener y producir visualizaciones de datos, cartografía e infografías que complementen las historias de los periodistas y garanticen la mejor representación de los datos en todos los formatos (impreso, app y web) con el fin de desarrollar productos e historias editoriales a largo plazo. Dada su interesante función intersectada en la organización, el 27 de enero, Idrees dirigió.. Sesión de preguntas y respuestas en vivo en QuoraA continuación se presenta el esquema de la sesión y un resumen de las preguntas y respuestas.

Esquema de control de calidad

Periodismo de datos: un día típico en la oficina
Cómo The Economist procesa datos para cubrir historias
Sondeo y errores de sondeo
Algunas de las historias en las que he trabajado incluyen:
- Modelando los resultados del Brexit
- Determinar si los lectores de periódicos podrían predecir el apoyo a Donald Trump
Consejos profesionales en periodismo de datos

Periodismo de datos: un día típico en la oficina

En primer lugar, aquí está el ciclo de vida de una historia de datos:

Generación de ideas
Identificación de fuentes de datos existentes
Limpiar y ordenar los datos para darles forma
Explorando los datos, a menudo un poco sin rumbo
Probar sus hipótesis para obtener conclusiones interesantes o construir un modelo estadístico (generalmente sólo explicativo; los modelos predictivos son mucho más difíciles)
Redacción de sus hallazgos, que siempre se complementa con informes convencionales
Por último, responder a los editores y verificadores de datos antes de publicar

En un día típico, un periodista de datos no hará todas estas cosas, pero sí algunas. La tarea más desafiante que probablemente he asumido es construir nuestro.. modelo de golfDespués de que uno de mis colegas desarrollara el marco del modelo, que considera aspectos como las buenas rachas y los efectos del clima —en una hoja de Excel, nada menos—, tuve que traducir el prototipo a Python. Luego, tuvimos que averiguar cómo simular torneos con este modelo, lo cual no fue trivial. Tras una o dos semanas de pruebas, conseguimos que el programa funcionara lo suficientemente bien como para simular torneos anteriores 10 000 veces. A pesar de mis mejores esfuerzos, Python, que es un lenguaje interpretado, no conseguía la velocidad que necesitábamos. Así que recurrimos a un colega con un doctorado en física, quien logró traducir mi Python a C++, mejorando nuestra velocidad en un orden de magnitud o incluso más. Muy divertido.

Se invierte mucho trabajo en nuestros gráficos antes de que se produzca la magia de la visualización (la recopilación y el procesamiento de datos en R y Python que mencioné). Una vez que los datos limpios están listos, utilizamos dos herramientas de gráficos personalizadas para crearlos: un script de Excel y un script de Adobe Illustrator que convierte los datos en un gráfico real.

Cómo The Economist procesa datos para cubrir historias

Así que, una vez que tengo un conjunto de datos prometedor, lo limpio y lo convierto en un formato analizable usando la biblioteca Pandas de Python o R, que es la opción más popular entre los periodistas de datos de aquí. Una vez que los datos están ordenados, suelo explorarlos un poco: observo los promedios, busco valores faltantes o inusuales, y graficamos algunas tendencias. A partir de ahí, decidimos los gráficos adecuados para acompañar la historia. Los simulo en mi ordenador y luego los paso a un visualizador de datos para adaptarlos a nuestro estilo habitual. Lo que hace único a The Economist es que no existe una sección de periodismo de datos en la industria; está en todas partes. En segundo lugar, como periódico semanal, tenemos plazos de entrega ajustados en comparación con nuestros colegas de los diarios. Producir historias de datos suele llevar bastante tiempo, en parte debido al tiempo que lleva limpiar y procesar datos desordenados. Tenemos la suerte de poder tomarnos nuestro tiempo con las historias y tratarlas con la debida rigurosidad antes de publicarlas.

Comentarios sobre sondeos y errores de sondeo

La respuesta básica, para decirlo de forma un poco aburrida, es que las muestras están sesgadas y no son representativas. Las encuestas funcionan si, y solo si, la muestra representa a toda la población. Existen todo tipo de problemas que obstaculizan este estándar de oro: el sesgo de no respuesta (es más probable que ciertas personas respondan a tus preguntas que otras) o el sesgo de autoselección (por ejemplo, realizar una encuesta en un club de campo distorsionaría la muestra). Los datos brutos con los que trabajan la mayoría de los encuestadores suelen estar bastante sesgados. Por ejemplo, la muestra podría ser 60% masculina cuando la población real se acerca más al 50%. Para solucionar esto, los encuestadores aplican una ponderación, lo que daría más valor a las respuestas femeninas. Esto funciona bastante bien a menos que haya realineamientos repentinos en ejes políticos descontrolados, como podría ser lo que ocurrió el año pasado.

Otro aspecto a mejorar podría ser las proyecciones de participación, que suelen basarse vagamente en encuestas de salida de elecciones anteriores o en probabilidades autodeclaradas. Probablemente se necesiten modelos más sofisticados, con predicciones individualizadas. Las campañas en Estados Unidos ya llevan ventaja en este tipo de trabajo —a menudo respaldadas por científicos de datos muy hábiles— y los encuestadores deberían aprender de ellos.

Ejemplo de las historias en las que ha trabajado Idrees Kahloon

Modelando los resultados del Brexit

La mayor dificultad de modelar el Brexit residía en la falta de un modelo análogo para el entrenamiento. Mi colega James Fransham y yo solucionamos este problema analizando microdatos de encuestas para obtener una idea clara de los mejores predictores del voto a favor de la salida o la permanencia. Inmediatamente, vimos que la educación y la clase social eran increíblemente buenas, mientras que los predictores del comportamiento político que habían funcionado bien en el pasado (como la afiliación partidista) funcionaron excepcionalmente mal. Una vez identificados los factores más importantes, utilizamos las cifras del censo para proyectar los recuentos finales. También modelamos la participación electoral mediante un procedimiento similar.

El modelo de la noche electoral utilizó todo este procesamiento numérico como predicción base (una prior bayesiana). A medida que se conocieron los resultados, desarrollamos un script que ajustó dinámicamente el modelo subyacente, haciéndolo cada vez más preciso a medida que avanzaba la noche. Desafortunadamente para el Reino Unido, pero afortunadamente para nuestro modelo, predijimos un Brexit una hora después de conocerse los resultados. Puede ver más información, incluyendo los magníficos detalles estadísticos, aquí.

Los lectores de periódicos apoyan la predicción de Donald Trump

Funciona de maravilla . Si le preguntas a un votante qué tan confiable considera que son varios periódicos, puedes predecir su voto con un 88% de precisión. Y eso sin tener en cuenta información adicional como la raza, la afiliación política o el nivel educativo. Si bien esto puede ser un triunfo para las estadísticas, me parece un poco desalentador que las actitudes hacia los medios estén tan polarizadas según las líneas partidistas.

¿Cuál es la mejor manera de prepararse para una carrera en periodismo de datos?

Para ser un buen periodista de datos se necesitan conocimientos de tres áreas: estadística, informática y redacción. La mejor manera de aprender a escribir, y en particular el periodismo, es practicando. Si te interesa el periodismo, la mejor forma de prepararte es hacer prácticas en un periódico local y escribir para la revista o el periódico de tu universidad. Otra opción es la prensa especializada, donde te especializas en un nicho específico pero adquieres las habilidades básicas necesarias para escribir sobre cualquier tema. Es mucho más fácil aprender de periodistas experimentados que intentar leer sobre estos temas. Por ejemplo, la mayoría del personal de The Economist nunca estudió periodismo formalmente.

La estadística y la informática se aprenden mejor en el aula, con un profesor experimentado que pueda corregir los errores antes de que se arraiguen demasiado. Si ya has completado tu formación académica, hay muchísimos materiales y cursos en línea que te pueden ayudar. Para una introducción rigurosa a la estadística, recomiendo leer el excelente libro de Joe Blitzstein y Jessica Hwang, Introducción a la Probabilidad (¡y resolver los ejercicios!). Con esa base, verás que muchos temas, como la econometría y el aprendizaje automático, te resultarán mucho más accesibles.

Hoy en día, la mayoría de los programadores son autodidactas. Al igual que con la escritura, lo más importante es la práctica. Elige un lenguaje (Python suele ser el más fácil para principiantes), configura todo e intenta crear programas sencillos. Cuanto más te obligues a escribir código, más natural te resultará.

¿Qué otro consejo darías sobre ser periodista de datos? Deja tus comentarios a continuación.