SODP logo

    数据记者的一天——伊德里斯·卡伦,《经济学人》

    数据记者的一天可以看作是查看电子表格并以有意义的方式呈现信息,然而,正如《数据新闻手册》所指出的那样……
    更新日期:2025年12月1日
    Vahe Arabian

    创建者

    Vahe Arabian

    Vahe Arabian

    事实核查

    Vahe Arabian

    Vahe Arabian

    编辑

    Vahe Arabian

    数据记者的一天可以看作是查看电子表格并以有意义的方式呈现信息,然而,实际上并非如此。 数据新闻手册 根据多位撰稿人的发言,数据新闻之所以重要,原因如下:
    • 它有助于过滤数据流。
    • 故事讲述提供一种新的方法和技巧
    •  另一种新闻形式,就像有文字新闻或摄影新闻一样。
    • 数据新闻是未来网络内容消费的发展方向
    • 更新你的技能
    • 信息处理补救措施
    • 应对数据驱动型公关的方案
    • 对官方信息提供独立解读
    • 应对数据洪流
    • 节省时间的活动
    • 还有更多……
    伊德里斯·哈隆(Idrees Khalon)是哈佛大学应用数学专业的应届毕业生,目前在《经济学人》担任数据记者,负责与各领域记者、版块编辑、开发人员和设计师合作,搜集并制作数据可视化、地图和信息图,以支持记者的报道,并确保数据在所有格式(印刷版、应用程序和网页)中得到最佳呈现,从而为开发更长远的编辑产品和报道奠定基础。鉴于他在《经济学人》中扮演的复杂角色,1月27日,伊德里斯主持了一场…… Quora上的在线问答环节以下是会议大纲以及问答环节的总结。.

    质量保证大纲

    • 数据新闻——办公室里的一天
    • 《经济学人》如何分析数据以报道新闻
    • 轮询和轮询误差
    • 我参与创作的一些故事包括:
      • 模拟英国脱欧的结果
      • 探究报纸读者数量能否预测对唐纳德·特朗普的支持率
    • 数据新闻职业建议

    数据新闻——办公室里的一天

    首先,以下是数据故事的生命周期:
    • 创意产生
    • 确定现有数据源
    • 清洗和整理数据,使其符合要求
    • 探索数据,往往有点漫无目的。
    • 检验你的假设以获得有趣的结论或构建统计模型(通常只是解释性的;预测模型要困难得多)
    • 撰写调查结果,并始终辅以常规报告。
    • 最后,在发布前回复编辑和事实核查人员的意见。
    通常情况下,数据记者不会每天都做所有这些事情,但会做其中的一些。我所承担过的最具挑战性的任务可能是构建我们的 高尔夫球车一位同事用Excel表格开发出了模型框架,其中考虑了诸如连胜和天气影响等因素。之后,我需要将原型翻译成Python。接下来,我们还要研究如何用这个模型模拟比赛,这可不是件容易的事。经过一两周的努力,我们终于让程序运行得足够好,可以模拟过去的比赛1万次。尽管我尽了最大努力,但Python这种解释型语言的运行速度仍然远远达不到我们的要求。于是,我们求助于一位拥有物理学博士学位的同事,他成功地将我的Python代码翻译成了C++,速度提升了一个数量级甚至更多。真是太棒了!.

    在可视化效果真正展现之前,我们需要做大量的准备工作(例如我之前提到的在 R 和 Python 中进行的数据收集和处理)。一旦数据清洗完毕,我们就会使用两个定制的图表工具来创建图表:一个是 Excel 脚本,另一个是 Adob​​e Illustrator 脚本,它们可以将数据转换成实际的图表。.

    《经济学人》如何分析数据以报道新闻

    所以,一旦我拿到有希望的数据集,我就会用Python的pandas库或者R语言(R是我们这里数据记者更常用的语言)来清理数据,使其符合分析要求。数据整理好之后,我通常会做一些探索:查看平均值,找出缺失值或异常值,绘制一些趋势图。接下来,我们会选择合适的图表来配合报道。我会先在电脑上模拟这些图表,然后交给数据可视化专家,让他们按照我们特有的风格进行制作。《经济学人》的独特之处在于,业内没有专门的数据新闻版块,数据新闻无处不在。其次,作为一份周报,与日报相比,我们的截稿时间非常充裕。制作数据报道通常需要相当长的时间,部分原因是清理和处理杂乱的数据需要耗费大量时间。我们很幸运,能够从容地对待每一篇报道,并在发表前进行严谨细致的处理。.

    关于民意调查和民意调查误差的评论

    简单来说,答案在于样本存在偏差且缺乏代表性。民意调查只有在样本能够代表总体的情况下才有效。然而,各种各样的问题都会阻碍这一黄金标准的实现——例如无应答偏差(某些人比其他人更有可能回答你的问题)或自选择偏差(例如,在乡村俱乐部进行民意调查会使样本产生偏差)。大多数民意调查机构使用的原始数据通常都存在相当大的偏差。例如,样本中男性可能占60%,而实际总体中男性可能占50%左右。为了解决这个问题,民意调查机构会采用加权法,使女性的回答更有价值。这种方法通常效果不错,除非政治格局发生突然的、不受控制的重组,而去年可能就发生了这种情况。.

    另一个需要改进的领域可能是投票率预测,目前的预测通常只是简单地依赖以往选举的出口民调或选民自述的投票可能性。或许需要更精细的模型,进行个性化的预测。美国的竞选活动在这方面已经领先一步——他们往往有非常优秀的数据科学家提供支持——民调机构或许应该向他们学习。.

     伊德里斯·卡隆参与创作的故事示例

    模拟英国脱欧的结果

    构建英国脱欧模型的最大难点在于没有可供训练的先例。我和我的同事詹姆斯·弗兰沙姆(James Fransham)通过分析民调微观数据来解决这个问题,从而清晰地了解哪些因素最能预测选民投票支持脱欧还是留欧。我们很快发现,教育程度和社会阶层是非常有效的预测因素,而过去行之有效的政治行为预测因素(例如党派归属)则表现得异常糟糕。确定了最重要的因素后,我们利用人口普查数据来预测最终结果。我们还使用类似的方法对投票率进行了建模。.

    选举之夜的模型以所有这些数据分析为基础预测(贝叶斯先验)。随着结果陆续公布,我们编写了一个脚本,动态调整底层模型,使其预测精度在当晚不断提高。对英国来说不幸的是,但对我们的模型来说幸运的是,我们在结果公布后一小时内就预测到了英国脱欧。您可以在这里

    报纸读者对唐纳德·特朗普的支持率预测

    它的表现令人惊叹。如果你询问选民对几份报纸的信任度评价,就能以88%的准确率预测他们的投票意向。这还没算上种族、党派或教育程度等其他有用信息。虽然这对于统计数据来说或许是个好消息,但我认为,人们对媒体的态度如此强烈地沿着党派路线两极分化,着实令人沮丧。

    如何才能最好地为数据新闻职业生涯做好准备?

    要成为一名优秀的数据记者,需要掌握三项技能:统计学、计算机科学和写作。写作,尤其是新闻写作,最好的学习方式是实践。如果你对新闻业感兴趣,最好的准备方式是在当地报社实习,并尝试为校刊或校园报纸撰稿。另一个途径是行业媒体,在那里你可以专注于某个细分领域,但同时也能掌握撰写任何主题文章所需的基本技能。向经验丰富的记者学习远比自学要容易得多。例如, 《经济学人》

    统计学和计算机科学最好在课堂上学习,由经验丰富的老师指导,以便在错误根深蒂固之前及时纠正。如果你已经完成了正规教育,网上也有很多学习资料和课程可以帮助你。想要系统地学习统计学,我推荐阅读乔·布利茨斯坦和杰西卡·黄合著的优秀著作《概率论导论》(并认真完成书中的习题!)。有了这方面的基础,你会发现很多主题,比如计量经济学和机器学习,都会变得更容易理解。

    如今大多数程序员都是自学的。和写作一样,最重要的是实践。选择一门编程语言(Python 对初学者来说通常最容易上手),搭建好环境,然后尝试编写简单的程序。你越是强迫自己写代码,它就会变得越自然。.

      关于如何成为一名数据记者,您还有哪些建议?请在下方留言。.
    0
    喜欢您的想法,请发表评论。 x