对欧盟结构基金为期九个月的调查
2010年,金融时报与调查新闻局(Bureau of Investigative Journalism (BIJ))联手调查欧盟结构基金(European Structural Funds),旨在查明谁是欧盟结构基金的受惠者以及这笔钱是否得到有效利用。欧盟结构基金是欧元区内第二大经济补助项目,过去的七年里,其补助金额已达三千四百七十亿欧元。该计划至今已存在逾数十年,但除去其浮光掠影式的概述总结,对于谁是其受惠者,它们则一直表现得讳莫如深。在最近一轮的融资回合中,作为该基金规则改变的一部分,官方有义务向公众出具该基金受惠者的名单,这其中应包括对计划的说明以及欧盟和各政府拨款的资金数额。
该项目组由多达十二名记者和一名全职的程序员组成,他们一起工作了九个月。仅数据搜集这一项工作就耗时数月。
金融时报及新闻调查局连续五天对此次调查进行了报道,英国广播公司(BBC)为此制作了一期纪实性广播节目,以及多集电视纪录片。
在从事这种规模的项目之前,你得首先确定自己调查发现的原创性,这样你才能最终完成独一无二的优秀新闻报道。
该项目可清楚地分为以下几步:
1. 确定数据由何人保存以及如何保存
欧盟委员会(The European Commission)区域总署设有一个门户网站。它将欧盟各地区官方所设的网站汇集起来,各有关当局通过它们的网站发布数据。我们相信,欧盟委员会设有一个关于项目数据的中心数据库,我们可以直接进入该数据库,或是通过《信息自由法》的要求获取数据。但没有一个数据库能够满足我们对于数据详实程度的要求。我们很快意识到,欧盟委员会提供的很多链接都是错误的,并且绝大多数官方所发布的数据都是PDF格式,而不是其它便于进行数据分析的格式,比方说CSV或是XML格式。
团队由多达12名成员组成,其工作是识别最新的数据并将这些链接整理到一份可供我们协同使用的大型电子表格中。由于各数据字段格式并不统一(举例来说,标题可以用不同的语言来写,某些数据集使用不同的货币单位,另外一些数据集则包涵了欧盟和国家基金的衰退),因此在翻译和描述每个数据集中可供利用的数据字段时,我们要尽量做到准确无误。
2. 下载并准备数据
下一步包括下载所有的电子表格、PDF文件,在某些情况下,还需从网络抓取原始数据。
之后,每一个数据集都必须标准化。我们最艰巨的任务就是从PDF文件中提取数据,其中一些PDF文件长达数百页。通过使用UnPDF和泰比PDF编辑器(ABBYY FineReader)这样的PDF提取软件,我们完成了大部分的数据集标准化任务,这些软件能将数据从PDF文件中提取,并转换成CSV、Excel等格式。
我们还需要检查并仔细核对,保证PDF提取工具所捕捉数据的准确性。检查以及复核可通过对数据进行过滤、分类以及总计来完成(保证所得数据与PDF文件上的内容完全一致)。
3. 创建数据库
团队中的编码员建立一个SQL(Structured Query Language, 结构化查询语言)数据库。之前所准备的每个文件都被用作建造整个SQL数据库的组成部分。每天都必须做的一件事就是将所有个体的数据文件上传到大型的SQL数据库中,使用数据库的查询功能,人们可以通过数据库前端飞速地进行查询。
4. 复核与分析
团队主要通过以下两种方法分析数据:
- 通过数据库前端
-
该方法需要我们在搜索引擎栏中键入自己感兴趣的关键词,比方说:烟草、酒店、A公司。我们在数据库的搜索功能中加入了谷歌翻译,有了它的帮助,所有这些关键词都将被翻译成21种语言,并得出最佳的搜索结果。这些搜索结果能够下载下来,记者们可以以此对他们所感兴趣的个体项目进行更加深入的调查。
- 通过对整个数据库的宏观分析
-
有时,我们可能要下载一个完整的数据集,该数据集可通过使用关键词,或是通过国家、区域、支出种类、受益人的项目数量等总计数据来进行分析。
通过这两种分析方法以及通过实地调研、案头调研得到的信息组成了我们的新闻线。
对数据完整性的复核(通过合计并检查当局所提及的内容是否已经分配完毕)需要花费大量的时间。其中一个主要的问题是,在大多数情况下,当局只会发布“欧盟和国家基金”的数额。在欧盟的条款之下,每一个项目只允许使用欧盟基金募集在总花费总占有一定的比例的资金。欧盟基金的等级在项目层面上由我们通常所说的共同筹资率来决定。每个项目(比如区域竞争力)由众多子项目组成。在子项目层面上,技术上讲,一个子项目可以100%得到欧盟资金的资助,但另一个子项目可能拿不到一分钱,但只要这两个子项目集合在一起,欧盟基金的筹资数额在项目层面上不会大于批准的共同筹资率。
这意味着,我们需要核查在新闻报道中提及每一笔受益公司有争议的资金数额。
— 辛西娅·奥莫舒(Cynthia O”Murchu),金融时报