5分钟的学科指南
寻找关于一个特定的主题或问题的数据?不确定有什么数据或在哪儿找到这些数据?不知道如何入手?在这一小节我们来看看如何在网上寻找公共数据资源。
精细你的搜索关键词
尽管这些数据常常不容易找到,但是实际上很多数据库都已经被搜索引擎所收录,不论这是否出于发布者的本意。这里有几点建议:
-
当你搜索数据时,一定要包括与你所要寻找的数据内容相关的搜索术语,以及你所希望的格式或来源的信息。谷歌和其他搜索引擎都允许你通过文件类型搜索。例如,你可以只搜寻电子表格(通过添加您搜索的文件类型:"filetype:XLS filetype:CSV"),地理数据("filetype:shp"),或数据库提取("filetype:MDB,filetype:SQL, filetype:DB")。可能的话,你甚至可以查找PDF格式的(‘文件类型:pdf’)
-
您也可以通过搜索URL的一部分。Google的"inurl:downloads filetype:xls"功能能帮你找到所有的已经“下载”'到在他们网络服务器上Excel文件(如果你已经找到了单个下载文件,这个搜索关键词往往能帮你在服务器上同一文件夹中的找到其他结果)。你还可以限制只在某一个单一的域名中的结果,比如通过搜索"site:agency.gov"。
-
另一个经常使用的诀窍是,不直接搜索内容,而是搜索可提供批量数据的位置。例如,"site:agency.gov Directory Listing"可以给你一些由服务器生成的容易获得的源文件的列表,如果用"site:agency.gov Database Download"的话就会为你搜寻人工创建的列表。
浏览数据网站和服务
近几年在网络上涌现出大量专门的数据门户网站、数据中心和其他数据网站,在这里你可以找到各种公开的数据。如果你是个新手,可以先去看看这些资源:
- 官方数据门户
-
政府发布数据的意愿在国家之间差别很大。越来越多的国家都开设了数据门户网站(受美国的data.gov以及英国的data.gov.uk所启发)去促进民众或企业对政府数据的再利用。在datacatalogs.org这个网站上,你可以找到这些数据门户网站最新的索引信息。。另一个有用的网站是卫报世界政府数据,这是一个元数据搜索引擎,囊括了许多国家的政府数据条目。
- The Data Hub
-
一个由开放知识基金会运作的以社区推动型(community-driven)数据资源,这让寻找、分享、再利用这些开放数据变的非常简单,特别是以机器自动化的方式来进行数据操作。
- ScraperWiki
-
一个在线工具,其目的是“简化有用数据的提取,使这些数据便于应用到其他应用程序,或者提供给记者和研究人员”。大多数的数据提取网站及其数据库都是公开的,可以重复使用。
- 世界银行 和联合国 数据门户网站
-
世界银行和联合国的数据门户网站:为所有国家提供高水平的指标参数,数据通常可以追溯到多年以前。
- Buzzdata,Infochimps, 和DataMarket
-
一些旨在建立社区数据分享和转售的新兴公司。
- DataCouch
-
一个能上传、完善、分享及数据可视化的网站。
- Freebase
-
Freebase是谷歌旗下的一个很有意思的子公司,“由一帮热爱开放数据的团体开发,提供人、地址以及物体的实体图”。
- 研究数据
-
许多国家和学科都会对科研数据进行汇总,如英国数据档案。其中有大量的数据可以免费访问,但也有不少是需要订阅,或需要管理机构同意才可使用和分发。
在论坛上发问
在Get The Data或Quora上搜索现成的答案或者提出问题。GetTheData是一个问答网站,你可以在上面问数据相关的问题,包括在哪里可以找到有关某一具体问题的数据、如何查询或检索某个特定的数据源、使用什么工具对数据进行可视化探索、如何净化数据或是如何转变成你可以使用的格式。
在邮件列表中发问
邮件列表是整个团体在某个特定主题上的的智慧结晶。对于数据记者而言,数据驱动新闻列表(Data Driven Journalism List)和NICAR-L列表都是非常好的例子,不妨从它们开始。这些邮件列表上长期驻扎着从事各种项目的数据记者和计算机辅助报告 (CAR, Computer Assisted Reporting) 的极客。很可能其中有人做过跟你类似的项目,他即使不知道数据本身的链接,也可能有从何入手的想法。你也可以试试Wombat项目(“`一个针对引用困难问题的讨论列表”)开放知识基金会的许多邮件列表、theInfo上的邮件列表,或寻找关于你所感兴趣的主题或领域的邮件列表。
加入黑客/骇客(Hacks/Hackers)
Hacks/Hackers是一个在迅速扩张的国际草根新闻组织,在四大洲有着数十个分会和成千上万的成员。其任务是建立一个重新思考新闻和信息的未来的记者("hacks")和技术专家("hackers")的网络。在这样一个广泛的网络中,很有可能有人知道去哪里搜索你所要的数据。
请教专家
教授、公务员和业界人士通常知道到哪里查找数据。给他们打电话、发电子邮件、找机会跟他们搭讪、拜访他们的办公室。然后彬彬有礼的询问:“我正在做一个关于 X 的报道。我在哪儿能找到相关数据吗?你知道谁有这方面的信息吗?”
了解政府信息技术
了解各国政府在维护信息中所使用的技术和管理体系,这在访问数据时常常会很有帮助。不论是CORDIS(欧盟研究与发展计划相关资料库)、COINS或THOMAS,一旦你了解到一些关于这些缩略词所代表的大型数据库的预期目标,它们经常会成为你最有用的资料来源。
查找政府组织结构图,找出具有交叉职能(如报告、IT服务部门)的部门或单位,然后浏览他们的网站。很多数据保存在多个部门,可能在一个部门视作掌上明珠的某个数据库,在另一个部门就是免费的午餐。
在政府网站上寻找动态信息图表。这些图表通常是由可独立使用的结构化的数据源或应用程序编程接口所支持的(例如,飞行跟踪程序和天气预报的java应用程序)。
重复尝试搜索
当你知道更多数据相关的信息后,用你上次搜索所注意到的重要关键词组再搜索一次。这样你没准就走运搜到了你想要的数据!
撰写一个信息自由请求
如果你认为政府机构握有你所需要的数据,写一个信息自由(Freedom of Information)请求书可能是最好的办法。有关如何撰写文件更多信息请参阅下一章节。
— 布赖恩·博耶(芝加哥论坛报),约翰·基夫(美国纽约公共广播公司),弗里德瑞克·林登伯格(开放知识基金会),简·帕克(Creative Commons), 克里斯·吴(Hacks/Hackers)