数据新闻手册 中文 1.1 BETA
读取...
Custom Search
Web
 
 
 

5分钟的学科指南

寻找关于一个特定的主题或问题的数据?不确定有什么数据或在哪儿找到这些数据?不知道如何入手?在这一小节我们来看看如何在网上寻找公共数据资源。

精细你的搜索关键词

尽管这些数据常常不容易找到,但是实际上很多数据库都已经被搜索引擎所收录,不论这是否出于发布者的本意。这里有几点建议:

  • 当你搜索数据时,一定要包括与你所要寻找的数据内容相关的搜索术语,以及你所希望的格式或来源的信息。谷歌和其他搜索引擎都允许你通过文件类型搜索。例如,你可以只搜寻电子表格(通过添加您搜索的文件类型:"filetype:XLS filetype:CSV"),地理数据("filetype:shp"),或数据库提取("filetype:MDB,filetype:SQL, filetype:DB")。可能的话,你甚至可以查找PDF格式的(‘文件类型:pdf’)

  • 您也可以通过搜索URL的一部分。Google的"inurl:downloads filetype:xls"功能能帮你找到所有的已经“下载”'到在他们网络服务器上Excel文件(如果你已经找到了单个下载文件,这个搜索关键词往往能帮你在服务器上同一文件夹中的找到其他结果)。你还可以限制只在某一个单一的域名中的结果,比如通过搜索"site:agency.gov"。

  • 另一个经常使用的诀窍是,不直接搜索内容,而是搜索可提供批量数据的位置。例如,"site:agency.gov Directory Listing"可以给你一些由服务器生成的容易获得的源文件的列表,如果用"site:agency.gov Database Download"的话就会为你搜寻人工创建的列表。

直接寻找源文件

要说如何拿到公共数据,我的第一个绝招就是尝试直奔数据持有者,不是公众人物,也不是通过信息自由申请。我当然能精心制作一份通过信息自由法案的申请或者公开记录的请求,但是效率会很慢。很可能我就会得到回应说数据跟我申请的格式不一样,或者(像有些案例里那样)政府部门会使用专有软件,无法按我请求的数据格式那样提取出来。但是,如果我一来就成功联系上持有某组织数据的人,我就可以直接问他关于某主题都有什么数据和存储方式。再者,我熟悉数据语言,知道如何成功地请求获取数据。你要问这种途径的障碍?障碍时有发生,你很难联系上这些人。公开信息官员(PIO) 会想让我去跟他们谈。我发现在有的案例中,最好的方式是发起一个会议请求,当然如果能和公开信息官员,数据高手一起私下会面就再好不过了。我也能用一种让他们很难拒绝的方式来请求。“我不想给他们增麻烦,''我说。``我不想给他们增添不必要的负担或者漫无边际的请求,所以一次会面能让我确切地了解他们有什么,以及对我能最顺利准确请求到数据所必须知道的那些。”

如果这种方法不奏效,我的备案是在请求中首先就问他们数据记录的结构和数据字典。下一步我才真正的去申请数据本身。我有时也会问他们如何存放数据,存在什么系统里。通过这种方式我就可以研究这些数据都能用哪些方法导出,这对申请来说非常有好处。

最后要说的是,我最成功的一次经历来在当我还为蒙特纳的一家小报工作的时候。我需要一些统计数据,但是我被告知我想要的数据没法从主机中导出来。我当时研究了一番,然后主动请缨去帮助他们一起解决数据导出的问题。我和管数据的人一同,写了一些简短的代码,最终把数据打印到了软盘里(那是很久以前的事了)。我得到了我的数据,并且我们开发的这个统计小工具也被他们所配备,就能给请求数据的人提供数据了。他们没料想到这样的事会发生,但是有时他们自己也需要提取一些数据。他们完全不了解他们的系统,所以我们互相帮助。

谢丽尔·菲利普斯(Cheryl Philips),西雅图时报

浏览数据网站和服务

近几年在网络上涌现出大量专门的数据门户网站、数据中心和其他数据网站,在这里你可以找到各种公开的数据。如果你是个新手,可以先去看看这些资源:

Figure 1. datacatalogs.org(开放知识基金会)
官方数据门户

政府发布数据的意愿在国家之间差别很大。越来越多的国家都开设了数据门户网站(受美国的data.gov以及英国的data.gov.uk所启发)去促进民众或企业对政府数据的再利用。在datacatalogs.org这个网站上,你可以找到这些数据门户网站最新的索引信息。。另一个有用的网站是卫报世界政府数据,这是一个元数据搜索引擎,囊括了许多国家的政府数据条目。

The Data Hub

一个由开放知识基金会运作的以社区推动型(community-driven)数据资源,这让寻找、分享、再利用这些开放数据变的非常简单,特别是以机器自动化的方式来进行数据操作。

ScraperWiki

一个在线工具,其目的是“简化有用数据的提取,使这些数据便于应用到其他应用程序,或者提供给记者和研究人员”。大多数的数据提取网站及其数据库都是公开的,可以重复使用。

世界银行联合国 数据门户网站

世界银行和联合国的数据门户网站:为所有国家提供高水平的指标参数,数据通常可以追溯到多年以前。

Buzzdata,Infochimps, 和DataMarket

一些旨在建立社区数据分享和转售的新兴公司。

DataCouch

一个能上传、完善、分享及数据可视化的网站。

Freebase

Freebase是谷歌旗下的一个很有意思的子公司,“由一帮热爱开放数据的团体开发,提供人、地址以及物体的实体图”。

研究数据

许多国家和学科都会对科研数据进行汇总,如英国数据档案。其中有大量的数据可以免费访问,但也有不少是需要订阅,或需要管理机构同意才可使用和分发。

从纸质文档中获取数据

正是在维基解密发布美国军方在阿富汗和伊拉克战争文档之后,我们决定遵循着这种概念,发布阿尔及利亚战争日记以纪念阿尔及利亚战争五十周年。我们开始去搜集并数字化法军在阿尔及利亚战争中的档案。这些可以在巴黎战争档案部都可以拿到,尽管都是纸质的。我们把这些档案分发给记者和学生,让他们把这些纸质档案拍成照片。我们也曾尝试过用佳能P-150便携扫描仪把他们扫描下来,但效果不是很好,主要因为这些档案都被装订过了。

最后,在几周之内收集到了大概有一万页的档案。我们试过用文字识别软件(ABBYY FineReader)去识别这些图片,但是结果不尽人意。还有就是,战争档案部门断然拒绝向我们提供另外几箱最有价值的档案。最重要的是,战争档案部禁止任何人再出版那些能被随意拍照关于地点的文档,所以我们决定不去冒这个风险,这个项目也就被搁置了。

尼古拉斯·凯瑟-布瑞尔(Nicolas Kayser-Bril),Journalism++

在论坛上发问

Get The DataQuora上搜索现成的答案或者提出问题。GetTheData是一个问答网站,你可以在上面问数据相关的问题,包括在哪里可以找到有关某一具体问题的数据、如何查询或检索某个特定的数据源、使用什么工具对数据进行可视化探索、如何净化数据或是如何转变成你可以使用的格式。

在邮件列表中发问

邮件列表是整个团体在某个特定主题上的的智慧结晶。对于数据记者而言,数据驱动新闻列表(Data Driven Journalism List)和NICAR-L列表都是非常好的例子,不妨从它们开始。这些邮件列表上长期驻扎着从事各种项目的数据记者和计算机辅助报告 (CAR, Computer Assisted Reporting) 的极客。很可能其中有人做过跟你类似的项目,他即使不知道数据本身的链接,也可能有从何入手的想法。你也可以试试Wombat项目(“`一个针对引用困难问题的讨论列表”)开放知识基金会的许多邮件列表theInfo上的邮件列表,或寻找关于你所感兴趣的主题或领域的邮件列表。

加入黑客/骇客(Hacks/Hackers)

Hacks/Hackers是一个在迅速扩张的国际草根新闻组织,在四大洲有着数十个分会和成千上万的成员。其任务是建立一个重新思考新闻和信息的未来的记者("hacks")和技术专家("hackers")的网络。在这样一个广泛的网络中,很有可能有人知道去哪里搜索你所要的数据。

请教专家

教授、公务员和业界人士通常知道到哪里查找数据。给他们打电话、发电子邮件、找机会跟他们搭讪、拜访他们的办公室。然后彬彬有礼的询问:“我正在做一个关于 X 的报道。我在哪儿能找到相关数据吗?你知道谁有这方面的信息吗?”

了解政府信息技术

了解各国政府在维护信息中所使用的技术和管理体系,这在访问数据时常常会很有帮助。不论是CORDIS(欧盟研究与发展计划相关资料库)、COINS或THOMAS,一旦你了解到一些关于这些缩略词所代表的大型数据库的预期目标,它们经常会成为你最有用的资料来源。

查找政府组织结构图,找出具有交叉职能(如报告、IT服务部门)的部门或单位,然后浏览他们的网站。很多数据保存在多个部门,可能在一个部门视作掌上明珠的某个数据库,在另一个部门就是免费的午餐。

在政府网站上寻找动态信息图表。这些图表通常是由可独立使用的结构化的数据源或应用程序编程接口所支持的(例如,飞行跟踪程序和天气预报的java应用程序)。

用电话记录来“钓鱼”

几个月之前,我想去剖析时任总统候选人所在的得克萨斯州政府。具体来说,我想要瑞克佩里(Rick Perry)的手机通话记录。那是我们已经期待已久的国家公开记录的申请结果。拿到手的数据是120页以上只有传真质量的档案。我们颇费了一番功夫进行数据录入和清理,再通过WhitePages.com的API去反向查询电话号码。

将这些人名与州和联邦政府(FEC)选举数据对应起来以后,我们发现佩里通过州政府工作电话伸手拿到了大量的选举经费和超级政治行动委员会(PAC, Political Action Committee)资助,这种令人不悦的做法掀起了对他和他所倾心的“`超级政治行动委员会”之间勾连的质疑。

杰克·吉勒姆(Jack Gillum),美联社

重复尝试搜索

当你知道更多数据相关的信息后,用你上次搜索所注意到的重要关键词组再搜索一次。这样你没准就走运搜到了你想要的数据!

撰写一个信息自由请求

如果你认为政府机构握有你所需要的数据,写一个信息自由(Freedom of Information)请求书可能是最好的办法。有关如何撰写文件更多信息请参阅下一章节。

布赖恩·博耶(芝加哥论坛报),约翰·基夫(美国纽约公共广播公司),弗里德瑞克·林登伯格(开放知识基金会),简·帕克(Creative Commons), 克里斯·吴(Hacks/Hackers)

当法律失效

我阅读过一篇学术文章 scholarly article 解释说公布洛杉矶的餐馆卫生状况检查结果可减少食品相关的病例, 于是我要求巴黎卫生系统提供其检查清单。据法国自由信息条例规定的程序,我等了三十天才收到了他们拒绝的答复,随后我转到可以裁决信息公开有效性的公众数据公开委员会(CADA法文)。 CADA支持我的请求,命令行政系统发布数据。行政部门于是要求两个月的宽限期,并获得CADA同意。两个月后,行政系统仍然无动于衷。

我试图通过一些支持数据公开的公众人物(以及有钱人)打官司(这是5千欧元的官司,有CADA撑腰包赚不输),可惜他们担心损害了他们与官方数据项目的关系。这只是众多案例中之一,但可看出法国政府部门完全罔顾法律,官方无意支持基层民众对于数据的需求。

Nicolas Kayser-Bril, 记者++