新闻中的数据玄机:维基解密
让我们以一个调研性报道记者团提出的问题开始,“你善于制作电子数据表吗?”而且这简直是个表格的梦魇:它一共有92,201行数据,每行数据都包含着在阿富汗的重大军事行动的细目。维基解密中的第一部分就是关于阿富汗的战争记录。除此之外还有其他两个部分,分别是伊拉克的军事行动和一部分外交密电。官方称这份资料为SIGACTS(重要行动)——美国军方重要行动数据库。
由纽约时报和德国的明镜周刊协同披露的阿富汗战争日志报道中,数据新闻大显身手。我们致力于让我们专业的报道团队从纷繁复杂的信息中找到有价值的报道内容,通过对资料的分析还原现场,向公众解释战争究竟是如何开始并发展的。
对我们而言,关键是要及早行动起来,毕竟我们不准备披露全部的数据。维基解密已经决定披露全部数据了,而我们应该确保:不泄露线人的名字或可能对北约军队造成威胁的信息。与此同时,我们还需要使大卫·雷夫(David Leigh)和尼克·戴维斯(Nick Davies)(两位已经同阿桑奇就使用数据达成了协议)领导的记者团队能够更方便地使用这些数据。我们同时希望能更便捷地获取关键信息,并向外界公布,力求一切尽可能地透明和公开。
这些超过92,201行的Excel表对于我们来说简直是卷帙浩繁,并且其中的有些数据毫无意义或者毫无格式可言。这些没有被整理且十分庞大的数据对于调研记者们的“撒网捕鱼”没有任何帮助,不可能据此写出有意义的报道。
我们的团队用SQL建立了一个简单的内部数据库。如今,记者们可以通过关键词或者事件搜索内容,这样一来,检索数据库轻而易举,记者的报道也有据可查了。
数据库构造合理:每个事件都有以下几个关键数据(供查询用):时间 、日期、相关说明。伤亡人数,还有最重要的就是事件发生地的具体经纬度。
同时,我们也在筛选数据,以帮助我们能专注讲述战争中关键的新闻故事:简易爆炸装置,自制的路边炸弹制造的袭击数量的增长,面对这种防不胜防攻击,盟军束手无策。这个数据集虽然仍旧庞杂,但是便于管理多了。在2004年到2009年,这五年间发生约7500起简易炸弹袭击和伏击(此类伏击通常还会遭遇如武器交火或火箭弹袭击)。并且在这五年间,还有8000起被检查出并成功清理的炸弹袭击案。我们想要看看这5年来袭击都经历什么变化,对比起来,又会有怎样的结果,就可以从数据库中找到答案。通过数据库我们了解到,在阿富汗南部,也就是英国和加拿大军队的驻地是袭击频率最高的地方,这数据也有力地支撑了我们记者已经做出的战争报道。
伊拉克战争记录于2010年10月曝光,也使其他391,000份和伊战有关的资料也进入了公众的视野。
这次伊拉克战争资料的泄露程度是前所未有的。这可以说是个很好的案例使得战争被最大程度记载于史册。每一个细枝末节都可以供我们去分析并深入挖掘。但是有一点不容忽略:在数量庞大的遇害者中,大多数都是平民百姓。
英国卫报决定不会再版阿富汗全部的数据库,主要因为我们还不能确定数据库表格中是否有涉及线人的重要信息等。
不过,用户可以下载其他的六万份数据表,其中的事件相关人员早已过世。我们也移除概要,只保留了一些基本的数据,诸如,行动代号、死者、地区分类等。
我们搜集了所有有死亡的事故,并通过谷歌Fusion Table 制作成了一个电子地图。虽然它不够完美,但至少是一个不错的开始,它试着描绘出惨遭蹂躏的伊拉克是如何一步步被摧毁的。
2010年12月,大量的密电被曝光,牵涉到一个隐秘的外交世界。庞大的官方文件数据,包括了来自世界范围内美国外交使节和顾问的251,287份急件。这无疑是美国外交史上最独一无二的一道景观了——曝光了超过5万份涉及奥巴马政府的密电。但是这些数据包含了什么内容呢?
这些密电是发布自庞大的的密保IP路由网络,或称为机密互连协议路由网。该网络是美国军方专属的,独立于民用的网络系统。这一网络由设在美国华盛顿的五角大楼负责管理。在过去10年,越来越多的美国驻外使馆开始连接了这一网络。因此,外交和军方的信息可以获得共享。2002年,125家大使馆开始运用该系统,2005年增长到了180个。而如今绝大多数美国代表团已在世界范围内应用该系统。这也就解释了为什么大量密电都是在2008-2009年这个时间段发布的了。正如大卫·雷夫所写的那样:
标有SIPDIS(秘密互联网协议分布)的大使馆急件是可以自动下载到它的大使馆机密网站上的。在这网站上,这些信息不仅可以被政府部门人掌握,同样也能被美国军方人士掌握。只要他们通过安全审查,获得一个秘密等级(接入等级权限)和密码以及一台链接SIPRNet的电脑。
令人吃惊的是,能读到这些资料的人数超过了三百万。所有信息和数据都应有若干个密级,从最基础一直到_SECRET NOFORN_层级(不对非美国公民公布的机密)。然而事实是,这些资料本应该只限于华盛顿的官员以及像国务卿希拉里这样的高官阅读。通常情况下,这些密电由当地大使或其下属撰写。一些密级在“绝密”以及上的国外情报文件是不能通过SIPRNet.系统获得的。
与之前的内容不同,现在的数据以文本为主,没有量化或包含重复数据。包括以下内容:
- 来源
-
发送方,大使或具体个人
- 收件人列表
-
一般来说,电报发送给许多其他大使馆和个人。
- 主题
-
电文的简要描述。
- 标签
-
每一条电文都会用几个关键词缩写进行标注。
- 正文
-
电文内容。出于显而易见的安全考虑,我们不会全文公布内容。
在整个泄密事件中,一个值得玩味的细节是:这些密电如何正好泄露了我们需要的信息。这些泄露的信息主导着最近几周新闻界的话题。但是直到现在,每当这个世界上出现腐败政权的丑闻或者国际性的流言蜚语时,我们总能通过这些密电得知故事的新进展。
分析电文的工作是艰巨的,可以说是没有尽头的。
— 本文摘编自《伟大的真相:数据的力量》(第一版)的第一章,由卫报的西蒙·罗杰斯撰写(出版于Kindle平台)