数据新闻的视角
在2010年8月,我和一些同事组织了一个相信是首届国际数据新闻会议,在阿姆斯特丹举行。那时,会议里并没有大量围绕主题的讨论,只有个别广为人知致力于这个领域的组织参加。
使该术语出名的主要原因之一,是如英国卫报和纽约时报等媒体单位处理维基解密所公布的大量数据的方式。当时数据新闻开始被更广泛的用(和“计算机辅助新闻报道”一道)于描述记者如何使用数据以提高新闻报道内容和加强特定主题下的深入调查。
根据Twitter上那些经验丰富的数据新闻记者和新闻学者所谈论到的,我们现在所认识的数据新闻最早的表述之一,是由EveryBlock的创始人阿德里安.哈罗瓦提(Adrian Holovaty)在2006年提出的。EveryBlock是一项信息服务,旨在帮助用户了解他们居住的当地发生了什么事情。在他的一篇短文“报纸网站所需要的根本变革”中,他认为,记者应公布结构化的、机器可读的数据,而抛开传统的“大量文字”:
例如,报纸写了一则有关当地火灾的故事。能够用手机阅读该故事是最好的。万岁,技术!但我真正想要能够做到的是探索这个故事的原始事实,然后逐层归纳事实的出处,最后能够比较此次火灾与以往火灾以及往后可能发生的火灾的具体细节 —日期,时间,地点,受害人,消防站数量,与消防部门的距离,在场消防员姓名和从业年数,消防员到达了所用的时间。
但是,数据新闻与其他使用数据库或计算机的新闻形式的区别在哪里呢?数据新闻是怎样,又在何种程度上不同于过去其他形式的新闻呢?
“计算机辅助报道”和“精确新闻学”
使用数据提高新闻报道水平,向公众提供结构化的(如果不是机器可读的)信息有着很长的历史。也许最直接相关我们现在所说的数据新闻是“计算机辅助报道”或“CAR”,这是第一个有组织结构的、系统化的改善新闻的方法,它使用电脑来收集和分析数据。
CAR最早被哥伦比亚广播公司用来预测1952年总统选举的结果。自1960年以来,(主要是调查新闻并且总部设在美国的)记者开始寻求通过科学方法分析公共记录的数据库以独立地监察权力。它也称为“公共服务新闻”,这些电脑辅助技术的倡导者们试图展示趋势,揭穿流行知识的假面具,和揭露公共部门和私营机构犯下的不公。例如,菲利普·迈耶试图揭露他收到的关于1967年底特律骚乱的材料,以证明不只是教育程度较低的南方人参加了这场骚乱。比尔·戴德曼(Bill Dedman)的“金钱的颜色”的故事发生在20世纪80年代,它发现了主要金融机构贷款政策中系统性的种族偏见。史蒂夫·多伊格(Steve Doig)的“是什么出错了”试图分析20世纪90年代初早期安德鲁飓风的破坏模式,以了解有缺陷的城市发展政策和做法所导致的后果。数据驱动的报道带来了极具价值的公共服务,并赢得了很多著名的记者奖项。
在20世纪70年代初,精确新闻 (The New Precision Journalism 菲利普·梅耶 著)。 按照设想,能把精确新闻学付诸实践的主要是受到过专业新闻学和社会科学训练的主流媒体机构。它为回应“新新闻学”, 一种使用小说技巧的新闻报道形式而诞生的。而迈耶认为,新闻所追求的目标是客观性和真理,因此新闻报道所需要的手段是数据收集和分析的科学技术,而不是文学技巧。
精确新闻学可以理解为对新闻业的一些普遍不足和薄弱环节的反应:对新闻稿的依赖(后来被称为“抄闻”),对权威来源的偏见等。迈耶认为这些问题的来源是缺乏对信息科学技术和科学研究方法的应用,比如缺少民意调查和公共记录。精确新闻如在20世纪60年代所进行的实践,被用来呈现边缘群体和他们的故事。梅耶认为:
精确新闻是一种扩大记者的工具包的方式,使记者可以接触到以前无法了解的,只能粗略访问的,或是受到新闻审查的主题。这对于了解少数民族和持不同政见者团体代表起了很大作用。
一篇发表在20世纪80年代关于新闻和社会科学之间的关系的文章颇具影响力。它呼应了目前数据新闻相关的话语。这篇文章的作者是两名美国新闻学教授,他们认为在20世纪70年代和80年代,公众对于新闻的理解从狭义概念的“新闻事件”扩大到“情景报道”,或是对社会发展趋势的报告。通过使用数据库,例如普查数据或调查数据,记者能够“超越具体的、孤立的事件,提供背景从而解释这些事件的意义”。
正如我们所预料的,使用数据以改善新闻报道的做法可追溯到“数据”问世的年代。正如西蒙·罗杰斯(Simon Rogers)所指出的,卫报的首个使用数据新闻的案例可以追溯到1821年。这个案例是一个表格,它列出了曼彻斯特的各个学校的学生人数和所付的学杂费用。据罗杰斯表示,它首次展示了接受免费教育的学生数量,而这个数字是远远高于官方数字的。
一个早期在欧洲的例子是佛罗伦斯·南丁格尔和她的于1858年发表的关键报告,“英国陆军的死亡情况”。在她向议会提交的报告中,她使用图表来倡议改善英国军队的医疗服务。最有名的是她的“鸡冠图”(coxcomb),用盘旋上升的数据来展示每月死亡人数,这些数据突出了一个事实,那就是死亡的绝大多数是可以预防的疾病,而不是子弹。
数据新闻与计算机辅助报道
目前,围绕数据新闻的标签和其与早前的使用计算技术、分析数据集的新闻实践的关系,人们展开了关于“连续性和变化”的辩论。
一些人认为CAR和数据新闻之间是有区别的。他们说,CAR是收集和分析数据以加强(通常是调查性)新闻报道的一种技术,而数据新闻注重整个新闻工作流程中处理数据的方式。在这个意义上,数据新闻也注重数据本身(有时比CAR更甚),而不是使用数据作为一种手段来寻找故事或者增强故事的趣味性。因此,我们发现卫报的数据博客和德州论坛报在发表故事的时候也添加了数据集,甚至只提供数据集,让人们自己分析和发现。
两者的另一个区别是,调查记者对于他们想试图找到答案的问题或者想处理的难题来说常受信息匮乏之苦。虽然如今这种问题依然存在,但是我们有了相当丰富的信息资源,多到记者并不知道要如何使用它们。他们不知道如何从数据中获取价值。最近的一个例子是联合在线信息系统,这是英国最大的消费信息数据库。它受到信息透明倡导者的长期追捧,但是它发表的一些数据难倒了许多记者。正如菲利普·梅耶最近写信给我说:“过去信息匮乏的时候,我们的精力大部分用于搜寻和采集信息。现在,信息丰富了,如何加工更为重要。”
另一方面,有些人认为,数据新闻和计算机辅助报道没有实质上的差异。哪怕是在最近期的媒体实践中,也有历史和创新,这是一个常识。把数据新闻看作传统中的一部分,但应对的是新的情况和条件,比辩论它是否是完全新型的更有成果。即使可能两者在目标和技术上没有区别,但是在本世纪初出现的“数据新闻”的标签标志着一个新的阶段的诞生。在这个新阶段中,网上免费提供庞大的数据量,并结合了先进的以用户为中心的如自媒体发行和众包等工具,使更多的人比以往任何时候都更轻松地获得更多的数据。
数据新闻关乎大数据(Mass data)素养
数字技术和网络从根本上改变了信息发布的方式。数据新闻业是围绕数据站点和服务展开的生态系统工具和实践的一部分。引用和共享源素材是网站超链接结构的本质,也是我们今天所习惯的浏览信息的方式中的一部分。回溯到更早时期,网页超链接结构的基础原则是用于学术著作的引用。引用和共享源材料和数据背后的故事是数据新闻提高新闻的基本途径之一,维基解密创始人朱利安·阿桑奇把它称为“科学新闻学”。
数据新闻使任何人能深入到数据源当中,找到与他们相关的信息,去验证推断并挑战被普遍接受的假设,它有效地代表了大规模民主化进程,其使用资源、工具、技术和方法等,在过去仅限于专家使用,如调查记者,社会科学家,统计学家,分析师或其他专家。虽然目前引用和连接到数据源主要是数据新闻领域的,但我们正努力创造一个世界,在这个世界中,数据无缝地融入到媒体内。数据记者在帮助降低了解和查询数据的壁垒,大规模地增加读者的数据知识水平等方面起到了重要作用。
目前,这些新兴的自称为数据记者的社群与更成熟的CAR的社群是非常不同的。希望在未来,我们将看到这两个社群的关系变得更紧密,就像我们看到了新的非政府组织和公民媒体组织,比如ProPublica和新闻调查局,携手与传统新闻媒体一起参与调查。虽然数据新闻社群可能有更创新的提供数据和和展现故事的方式,CAR社群中深入分析与批判的方法是数据新闻所应必须学习的。
— 莉莉安娜·博内格鲁(Liliana Bounegru),欧洲新闻中心