数据新闻手册 中文 1.1 BETA
读取...
Custom Search
Web
 
 
 

数据记者对工具选择的讨论

噗嘶嘶嘶…这是你的数据从压缩包里解压的声音。现在怎么办?你想要从数据里寻找到什么? 准备用什么数据处理工具?对此,我们询问了一些数据新闻记者,看他们是如何处理数据的。以下是他们的经历…

《卫报》的数据博客非常看重与读者互动,这使读者能够在我们的基础上,快速复制《卫报》的数据新闻报道,并且发现一些我们没有发现的东西。因此,越直观的数据处理工具就越好。我们尽量挑选任何人都不用学习编程语言或经过特殊训练就能掌握、并没有高额附加费用的数据处理工具。

基于这个原因,目前我们大量使用谷歌的有关数据处理的产品。我们整理和发布的所有数据集都可以通过谷歌电子表格呈现,这意味着任何有谷歌帐户的人都可以下载数据,导入到自己的帐户,制作自己的图表,对数据进行排序,并创建数据透视表,也可以将数据导入到他们所选择的工具里。

我们使用谷歌的融合表(Google Fusion tables)来组织数据。当我们在融合表中创建热力图时,也将我们的KML文件分享到网站上,这样读者可以下载并建立自己的热力图,包括在数据博客的原始图上加入新的数据层。这些谷歌工具还有一个不错的功能是,他们适用于读者访问博客的不同终端,比如台式电脑、手机和平板电脑。

除了谷歌电子表格和融合表,我们在日常工作中还使用了其他两个工具。一是tableau,一个多维数据集可视化的工具,二是ManyEyes,用来对数据进行快速分析的工具。不过,这些工具都不够完美,所以我们将继续寻找让读者喜欢的更好的可视化工具。

卫报
— 丽莎·埃文斯(Lisa Evans)

我会变成一个程序员吗?不太可能!我当然不认为每一位的记者都需要知道如何编程。但我认为具有对可能性更为普遍的认知,并知道如何跟程序员对话,是非常有帮助的。

如果你开始了,先学走路别急着跑。你需要说服你的同事和编辑,使用数据可以让你们得到其他方法得不到且值得去做的报道。一旦他们看到了这种方法的价值,你就可以向更复杂的报道和项目进军了。

我的建议是先学习Excel然后用它做一些简单的报道。从小处着手逐渐到数据库分析及数据制图。你可以在Excel中做很多事情——它是一个及其强大的工具,但大多数人对Excel功能的使用却是那么可怜兮兮。如果可以的话,参加一个为记者开设的Excel课程,比如新闻调查中心提供的课程。

带着敬畏之心去解读数据,不要轻视它。你必须要认真,要注重细节并且质疑你得出的结果。你需要保留处理数据的记录和原始数据的副本,因为在处理数据时候是很容易犯错误的。我经常要几乎从头到尾反复做两到三次分析来进行检查和验证。如果能让你的编辑或其他人分别分析数据并比较彼此的结果就更好了。

金融时报
— 辛西娅·奥墨楚(Cynthia O'Murchu)

像记者撰写一个新闻报道那样一边快速写作,一边使用复杂的数据处理软件是一件相当了不起的事情。这在过去要花很长的时间。好在得益于在二十一世纪头十年的中期首次发布的Django和Ruby on Rails,这两个免费/开源的快速开发框架的出现,事情发生了变化。

Django是基于Python编程语言开发的,由阿德里安·霍洛瓦季和他位于堪萨斯州劳伦斯的劳伦斯日报世界版编辑部团队开发的。Ruby on Rails是由大卫·海涅迈尔·汉森和一个网络应用程序公司37Signals,在芝加哥开发的。

虽然这两个框架采取不同的方法来实现“`MVC模式”,但它们都很出色,能快速地建立即使是非常复杂的网络应用程序。他们可以完成建立一个应用程序的基本工作。比如创建并从数据库中获取项目、将URL与应用中特定的代码匹配。这些都被写进了程序的框架里,使开发人员并不需要编写代码来做这些基本的东西。

虽然一直没有对美国新闻app团队的正式调查,但通常大多数团队都使用这两个框架之一作为数据库支持的新闻应用。在ProPublica(一个非盈利调查机构)我们使用的就是Ruby on Rails。

提供像亚马逊网络服务这样的快速网络服务器“`切片”的发展,同样给过去开发一个应用缓慢的过程带来改观。

此外,我们有很标准的工具去处理数据:用Google Refine和Microsoft Excel清理数据;用SPSS和R做统计; 用ArcGIS和QGIS去做GIS;用Git做源代码管理;用TextMate、VIM和Sublime Text写代码;用MySQL、PostgreSQL和SQL Server的组合做数据库。我们建立了我们自己的JavaScript框架,“`Glass”,来帮助我们快速建立在JavaScript前端的大量应用。

ProPublica
— 斯科特·克雷恩(Scott Klein)

有时最好的工具就是最简单的工具——电子表格就是一种简便而又力量强大,却常常被我们被低估的工具。当所有东西都存储在DOS系统下的时候,通过使用电子表格,我能够理解得克萨斯巡警棒球队股东们合伙协议中的复杂公式——而时逢乔治·W·布什恰是主要股东之一。电子表格可以帮助我标出异常值或计算错误。由此,我可以撰写出框架脉络或者更多的东西。

而这是数据记者“工具箱”里的基本装备。也就是说,我最喜爱的工具拥有更强大的功能——用SPSS做统计分析和地图程序,使我能看到地理上的模式。

西雅图时报
— 谢丽尔·菲利普斯(Cheryl Phillips)

我是Python的超级粉丝。 Python是一种奇妙的开源编程语言,它很容易读写(例如,你不必在每行后键入一个分号)。更重要的是Python有一个庞大的用户群,因此对于你需要的一切都有插件(称为包)来实现。

我认为Django是数据记者很少会用到的东西。它是Python的一个网络应用框架,又称作创建大的、数据库驱动的网络应用工具。这对于小型交互式信息图表肯定有些“杀鸡焉用宰牛刀”了。

我也用QGIS,这是一个开源工具包,为需要不时处理地理数据的数据记者提供广泛的地理信息系统功能。如果您需要把地理空间数据从一种格式转换成另一种,那么QGIS就是你需要的。它可以处理几乎每一种地理数据格式(Shapefiles, KML, GeoJSON等)。如果你需要剪切出几个区域,QGIS也可以做到。并且,围绕着QGIS有一个庞大的讨论交流社区,所以你能够在网上找到众多像教程这样的自学资源。

R主要是作为一种科学可视化工具被创建的。很难找到一种还没有创建到R中的可视化方法或数据分析技术。R本身就是一个世界,是可视化数据分析的圣地“麦加城”。不够完美的一点是你需要(再一次)学习编程语言,因为R都有它自己的语言。但是,一旦你开始了在学习曲线上的攀爬,就没有什么工具比R更强大了。经过培训的数据记者可以用R来分析庞大的数据集,跨越Excel的限制(比如,你有一个一百万行的表)。

R有一点非常不错,那就是对于处理数据的全过程,从读取CSV文件到生成表格,你都能够精确地记录下来。如果数据发生变化,可以一键再生成图表。如果有人怀疑图表的完整性,你可以向他展示确切的数据源,让每个人都可以自己生成这张图(或者找到你犯过的错误)。

NumPy + MatPlotLib几乎跟Python的功能是一样的。如果你已经很好地掌握了Python,NumPy + MatPlotLib只是你的一种选择。事实上,NumPy和MatPlotLib是Python程序包的两个例子。它们可以用于数据分析和数据可视化,但都局限于静态的可视化。它们不能被用于制作带有提示工具和高级素材的交互性图表

我不用MapBox,但我听说如果你想基于OpenStreetMap做较为复杂地图的话,它会是一个强大的工具。例如,它可以自定义地图风格(颜色、标签等等)。同时MapBox搭配一个叫Leaflet软件,基本上是用于绘制地图的一个更高级的JavaScript库,可以让你轻易地在地图供应商之间切换(OSM、MapBox、谷歌地图、必应……)。

RaphaelJS是一个相对低水平的可视化语言,允许你进行基本元素的处理(圆、线、文本),并把它们做成动画、进行交互等等。RaphaelJS里没有现成的图表,如柱状图,你得自己画。

但是,Raphael的优点是你做的一切都能在IE浏览器上正常运转。但其他很多的(令人赞叹的)可视化库,像d3,就都不支持IE了。悲剧的是很多用户仍用IE,但没有哪个编辑部能无视占据它们30%的用户需求。

除了RaphaelJS,也其它可以给制作IE 版本Flash的工具替代品。《纽约时报》目前就在做这件事情。这意味着你得把每个应用开发两次。

我始终不认为存在为IE和主流浏览器做可视化的所谓“`最好”的工具。我经常发现Raphael在IE上跑得巨慢,几乎比在主流的浏览器中跑Flash慢上十倍。所以如果你想给所有的用户提供高质量的动画可视化,Flash替代版本也许是一个更好的选择。

开放知识基金会
— 格雷格·艾许(Gregor Aisch)

我用的工具是Excel,它可以处理大部分CAR(计算机辅助报道)问题,并具有简单易学、大多数记者可快速掌握的优点。当需要合并表时,我通常使用Access,但会把合并后的表导出到Excel,做进一步的工作。我使用ESRI的ArcMap做地理分析,它很强大并且被收集地理编码数据的机构所使用。 TextWrangler在快速分析文本数据的布局及分隔方面很强大,并能用规则的表达式进行复杂的搜索和替换。当需要如线性回归这样的统计技术时,我用SPSS,它有一个友好的操作菜单。对于确实繁重的工作,比如处理数百万计的记录、需要认真筛选和程序化变量转换的数据集,我用SAS软件。

沃尔特·克朗凯特新闻学院
— 史蒂夫·多伊格(Steve Doig)

我们选择的工具包括Python和Django,用于破解、抓取和操控数据;PostGIS,QGIS和MapBox工具箱,用于建设复杂的网络地图。 我们正在考虑选择R语言还是NumPy+ MatPlotLib做探索性数据分析的工具,虽然目前我们最喜欢的数据工具是自主研发的CSVKit。我们所做的一切或多或少都是在云端部署的。

芝加哥论坛报
— 布莱恩·博耶(Brian Boyer)

在《国家报》,我们使用:

  • Excel去清洗、组织和分析数据;

  • 谷歌电子表格去发布、连接像谷歌Fusion Tables、Junar开放数据平台这样的服务;

  • *Junar用于分享我们的数据,并嵌入我们的文章和博客里;

  • *Tableau用于发布我们的交互式数据的可视化;

  • *Qlikview,一个非常快速的商业智能工具,我们用它来分析、筛选大型数据集;

  • *NitroPDF用来把PDF文件转换成文档和Excel文件;

  • *谷歌Fusion Tables用于地图可视化。

国家报 (阿根廷)
— 安赫利卡·佩拉塔·拉莫斯(Angélica Peralta Ramos)

作为一个没有任何技术偏见的草根社区,我们“领军黑客”(Transparência Hacker)使用了很多不同的工具和编程语言。每一个成员都有他一套自己的喜好,这种巨大的差异性既是我们的长处也是我们的弱点。其实我们正在建设一个“透明黑客Linux发行版”,我们可以在任何地方live-boot,并随时进行数据破解。该工具包有一些有趣的工具,比如说Refine,RStudio和OpenOffice Calc(它是个被“聪明人”忽视的工具,但是在快速处理小型数据时确实非常有用)。此外,我们还使用了很多Scraperwiki快速制作原型和在线保存数据和结果。

对于数据可视化及作图,有很多我们喜欢使用的工具。Python和NumPy是很强大的。论坛里有人一直在用R语言,但归根结底我仍然认为Javascript绘图库,如d3,、Flot 和 Raphael,更为大部分项目所使用。最后,我们在绘制地图上进行了许多尝试,而Tilemill确实是一个有趣的工具。

Transparência Hacker
— Pedro Markun