Un día en la vida de un periodista de datos puede verse como mirar hojas de cálculo y presentar información de manera significativa, sin embargo, como señala el manual de periodismo de datos a través de varios colaboradores, el periodismo de datos es importante por las siguientes razones:
- Ayuda a filtrar el flujo de datos.
- Aportando un nuevo enfoque y técnicas a la narración
- Una forma diferente de periodismo, como hay palabras periodismo o fotoperiodismo
- El periodismo de datos es el futuro del consumo de contenidos en la web
- Actualizando tu conjunto de habilidades
- Un recurso para el procesamiento de la información
- Una respuesta a las relaciones públicas basadas en datos
- Proporcionar interpretaciones independientes a la información oficial
- Lidiando con el diluvio de datos
- Actividad para ahorrar tiempo
- y más…
Idrees Khaloon, recién graduado de Harvard en Matemáticas Aplicadas, es periodista de datos en The Economist y es responsable de trabajar con periodistas, editores de sección, desarrolladores y diseñadores para generar y producir visualizaciones de datos, cartografía e infografías que respalden las historias de los periodistas y garanticen la mejor representación de datos en todos los formatos (impresos, aplicaciones y web) con el objetivo de desarrollar productos editoriales e historias de mayor alcance.
Dado su interesante papel cruzado en la organización, el 27 de enero, Idrees realizó una sesión de preguntas y respuestas en vivo en Quora . A continuación se muestra el esquema de la sesión y un resumen de las preguntas y respuestas.
Esquema de control de calidad
- Periodismo de datos: un día típico en la oficina
- Cómo The Economist procesa datos para cubrir historias
- Sondeo y errores de sondeo
- Algunas de las historias en las que he trabajado incluyen:
- Modelando los resultados del Brexit
- Determinar si los lectores de periódicos podrían predecir el apoyo a Donald Trump
- Asesoramiento profesional en periodismo de datos
Periodismo de datos: un día típico en la oficina
En primer lugar, aquí está el ciclo de vida de una historia de datos:
- Generación de ideas
- Identificar las fuentes de datos existentes
- Limpiar y ordenar los datos en forma
- Explorando los datos, a menudo un poco sin rumbo
- Probar sus hipótesis para obtener conclusiones interesantes o construir un modelo estadístico (generalmente solo explicativo; los modelos predictivos son mucho más difíciles)
- Redactar sus hallazgos, que siempre se complementa con informes convencionales.
- Por último, responder a los editores y verificadores de datos antes de publicar
En un día normal, un periodista de datos no hará todas estas cosas, pero hará algunas.
Probablemente, la tarea más desafiante que he asumido es la construcción de nuestro modelo de golf . Después de que uno de mis colegas desarrollara el marco para el modelo, que tiene en cuenta elementos como las rachas de calor y los efectos del clima, nada menos que en una hoja de Excel, tuve que traducir el prototipo a Python. Luego tuvimos que averiguar cómo simular torneos bajo este modelo, que no era baladí. Después de una o dos semanas de batallas, el programa funcionó lo suficientemente bien como para simular torneos pasados 10,000 veces. A pesar de mis mejores esfuerzos, Python, que es un lenguaje interpretado, no estaba obteniendo la velocidad que necesitábamos. Entonces recurrimos a un colega con un doctorado en física, quien logró traducir mi Python a C++, mejorando nuestra velocidad en un orden de magnitud o más. Muy divertido.
Se dedica mucho trabajo a nuestros gráficos antes de que ocurra la magia de la visualización (la recopilación y el procesamiento de datos en R y Python que he mencionado). Una vez que los datos limpios están listos, tenemos dos herramientas de gráficos personalizadas que usamos para crear gráficos: un script de Excel y un script de Adobe Illustrator que convierte los datos en un gráfico real.
Cómo The Economist procesa datos para cubrir historias
Entonces, una vez que tengo un conjunto de datos prometedor a mano, lo limpio y lo pongo en forma analizable usando la biblioteca de pandas de Python o R, que es la opción más popular entre los periodistas de datos aquí. Una vez que los datos estén ordenados, por lo general exploraré un poco: veré los promedios, encontraré si falta algún valor o si es raro, graficaré algunas tendencias. A partir de ahí, decidiríamos los gráficos correctos para acompañar la historia. Estos los simulé en mi máquina y luego los paso a un visualizador de datos para incorporarlos a nuestro famoso estilo.
Lo que hace que The Economist sea único es que no hay una sección de periodismo de datos en el negocio, está en todas partes. En segundo lugar, como periódico semanal, tenemos plazos lujosos en comparación con nuestros amigos en los diarios. La producción de historias de datos suele llevar bastante tiempo, en parte debido al tiempo que lleva limpiar y procesar datos desordenados. Tenemos la suerte de poder tomarnos nuestro tiempo con las historias y darles un tratamiento riguroso antes de publicarlas.
Comentarios sobre sondeos y errores de sondeo
La respuesta básica, para decirlo un poco aburrido, es muestras sesgadas y poco representativas. Las encuestas funcionan si, y solo si, la muestra representa a toda la población. Hay todo tipo de problemas que se interponen en el camino de este patrón oro: sesgo de falta de respuesta (ciertas personas tienen más probabilidades de responder a sus preguntas que otras) o sesgo de autoselección (realizar una encuesta en un club de campo sesgaría su muestra). , por ejemplo).
Los datos sin procesar con los que trabajan la mayoría de los encuestadores suelen ser bastante sesgados. Por ejemplo, la muestra podría tener un 60 % de hombres cuando la población real es más del 50 %. Para solucionar esto, los encuestadores aplican ponderaciones, lo que haría que las respuestas femeninas valieran más. Esto funciona bastante bien a menos que haya realineamientos repentinos a lo largo de ejes descontrolados en la política, que podría ser lo que sucedió el año pasado.
Otra área de mejora podría ser las proyecciones de participación, que generalmente se basan perezosamente en las encuestas de salida de elecciones anteriores o en las probabilidades autoinformadas. Probablemente se necesiten modelos más sofisticados, que involucren predicciones individualizadas. Las campañas en Estados Unidos ya tienen una ventaja inicial en este tipo de trabajo, a menudo respaldadas por científicos de datos muy inteligentes, y los encuestadores harían bien en aprender de ellos.
Ejemplo de las historias en las que ha trabajado Idrees Kahloon
Modelando los resultados del Brexit
La mayor dificultad de modelar el Brexit fue que no había ningún análogo que pudiéramos usar para entrenar. Mi colega James Fransham y yo solucionamos esto analizando los microdatos de las encuestas para tener una idea clara de los mejores predictores para votar por irse o quedarse. Inmediatamente, pudimos ver que la educación y la clase social eran increíblemente buenas, mientras que los predictores del comportamiento político que habían funcionado bien en el pasado (como la afiliación a un partido) lo hicieron excepcionalmente mal. Una vez que identificamos los factores más importantes, usamos números del censo para proyectar las cuentas finales. También modelamos la participación usando un procedimiento similar.
El modelo de la noche de las elecciones usó todo este cálculo numérico como predicción base (un previo bayesiano). A medida que llegaban los resultados, escribimos un guión que ajustaba dinámicamente el modelo subyacente, haciéndolo cada vez más preciso a medida que avanzaba la noche. Desafortunadamente para el Reino Unido, pero afortunadamente para nuestro modelo, predijimos un Brexit una hora después de recibir los resultados. Puede ver un poco más, incluidos los gloriosos detalles estadísticos, aquí .
Los lectores de periódicos apoyan la predicción de Donald Trump
Lo hace asombrosamente bien. Si le pregunta a un votante qué tan confiable calificó a varios periódicos, puede predecir su voto con un 88% de precisión. Eso es sin incorporar ninguna otra información útil como raza, afiliación partidaria o nivel educativo. Si bien podría ser un triunfo para las estadísticas, creo que es un poco desalentador que las actitudes hacia los medios estén polarizadas tan fuertemente en líneas partidistas.
¿Cuál es la mejor manera de prepararse para una carrera en periodismo de datos?
Se necesitan conocimientos de tres cosas para ser un buen periodista de datos: estadística, informática y redacción. La escritura en general y el periodismo en particular se aprenden mejor haciendo. Si te interesa el periodismo, la mejor manera de prepararte es hacer una pasantía en el periódico local y tratar de escribir para la revista de la escuela o el periódico del campus. Otra vía es la prensa comercial, en la que te especializas en un nicho de campo pero adquieres todas las habilidades básicas necesarias para escribir sobre cualquier tema. Es mucho más fácil aprender de periodistas experimentados que tratar de leer sobre estas cosas. La mayor parte del personal de The Economist nunca estudió periodismo formalmente, por ejemplo.
La estadística y la informática se aprenden mejor en el aula, con un instructor experimentado que puede corregir los errores antes de que estén demasiado arraigados. Si ya completó su educación formal, no hay escasez de materiales y cursos en línea que pueden ayudarlo. Para una introducción rigurosa a la estadística, recomendaría leer la excelente Introducción a la probabilidad de (¡y resolver los problemas!). Con esa base, descubrirá que muchos temas, como la econometría y el aprendizaje automático, serán mucho más accesibles.
La mayoría de los codificadores son autodidactas en estos días. Al igual que con la escritura, lo más importante aquí es hacer. Elija un idioma (Python tiende a ser el más fácil para los principiantes), configure las cosas e intente crear programas simples. Cuanto más te obligues a escribir código, más natural se volverá.