可视化作为数据新闻的重要工具
在开始尝试将图表或地图应用到数据之前,花些时间思考下静态和交互的图表元素在你的新闻中扮演的众多角色。
在报道阶段,可视化能够:
-
帮助你确定报道其余部分的主题和问题
-
识别异常值:在你的数据中(这些异常值)包含的是精彩的故事还是只是错误
-
帮你找到典型的例子
-
展现你的新闻点
可视化在发布阶段也扮演了多重角色:
-
以更令人信服的方式展现报道中的要点
-
从行文中移除不需要的技术信息
-
特别当它们是交互式和允许探索时,能向你的读者展现报道过程的透明度
这些角色表明你应该在报道中尽早开始并经常使用可视化,无论你是否启用了电子化的资料或记录。不要把它视为一个独立的步骤,那种在报道快写完时才开始的东西。要让这项工作指导你的报道。
着手实施有时意味着只是把你已经记下的笔记采用可视化的形式。思考下Figure 2,这是华盛顿邮报2006年的报道。
它显示了过去45年中农场收入中与补贴有关的比例及关键事件,并按月建立图表。发现随着时间的推移具有相同定义和内涵而可以使用的数据是一项挑战。调查所有的波峰和波谷帮助我们在完成报道其它部分时对背景信息谨记于心。这也意味着在开始写作之前就已基本完成了一项苦差。
下面是借助可视化探索数据集的一些技巧。
技巧一:使用小而多的组图在大数据集中快速定位
在《华盛顿邮报》,我们在调查乔治·W·布什政府是基于政治考虑而不是实质理由实施补助这一观点时,采用了这一技巧。大多数补助计划按规则完成,其它一些已经实施多年,所以我们想知道能不能从近1500个不同的自由裁量流中发现模式。
我为每个项目创建了一个图表,红点代表总统竞选年,绿点代表国会选举年。问题是:的确在一些项目中总统选举前六个月会出现一个高峰——旁边标有峰值的红点——但那不是我们要找的选举年。这个模式模式持续在2000年那次总统大选,阿尔·戈尔与乔治·W·布什竞争的年份出现,而不是出现在2004年大选。
通过一组图表而不是数字表格很容易发现这一事实。而互动形式使我们能根据地区和机构检查拨款。一系列小而多的地图能将时间和地点展示在静态图形上,方便比较——有时比互动形式还要方便。
例图是由PHP编写的一个小程序生成的,而现在使用Excel2007或2010的迷你图(sparkline)功能更容易做到。视觉化专家爱德华·塔夫特发明了这些“(数据)密集、(设计)简单、文字大小的图表” 来传递信息一览大型数据集。现在从股票行情到体育赛事胜负情况,你随处可以看到这种图表。
技巧二:换个角度看你的数据
当你尝试理解一篇报道或一个数据集时,所有看待它的方式都是正确的;尝试能想到的所有方式,你将获得不一样的视角。如果你在报道犯罪,你可以看一组代表暴力犯罪一年中变化情况的图表;可以从百分比变化的角度来看;还可以与其它城市对比着看;也可以看随时间的变化情况。试着使用原始数字、百分比和指数。
从不同的尺度看数据。尝试遵循X轴必须为0的规则。然后打破这个规则看你能否了解更多。对非常规分布尝试用对数和平方根处理。
记住视觉感知方面的研究成果。威廉姆·克利夫兰(William Cleveland)的实验结果表明,当平均坡度大约45度时,眼睛能看到图像的变化。这要求你忽略总是从0开始的戒规,向最能提供洞见的图形努力。流行病学方面的研究也提醒你要为图表找到一个目标水准作为边界。每一种方法都帮助你用不同的方式理解数据。当你获得它们能告诉你的所有事情时,你就大功告成了。
Tip 3: 不要想当然
现在你已经用不同的方式分析过你的数据了,你可能已经发现一些似乎不太正常的记录——一开始你可能没有就理解它们意味着什么,或者有些异常值似乎是录入错误,或者有些趋势呈相反方向。
如果你想基于早期的探索发布什么东西,或者公布可视化内容,你需要解决这些问题而不能想当然。它们要么是有趣的故事要么只是错误;通往常识还是误读,这是一项有趣的挑战。
地方政府提供充满错误的电子表格并不罕见,数据中的政府术语也很容易被误解。
首先,回头检查自己的工作。你是否阅读了说明文档和注意事项,问题是否存在原始数据中?如果你这方面一切正常,那么是时候拿起电话了。如果你打算使用这些数据,你就需要解决存在的问题,所以你最好立刻开始。
并不是每条错误都重要。在竞选资金记录中,10万条数据中有几百条邮编不存在是很正常的事。只要它们不是出现在同一个城市,或者属于同一个竞选人,这种偶尔的坏数据无关紧要。
你需要问问自己:如果我要使用这些数据,读者会不会对它们的含义形成基本准确的看法?
技巧四:避免过分追求精确
没有提出足够问题的另一面是过分纠缠琐碎的细节。你的探索性图表应当大致准确,但是如果面对不统一的取整方式,或者数据加总不是恰好100%,或者缺少20年中一两年的数据,你也不必担心。这是探索过程的一部分。你仍然能看到大的趋势,知道在发布之前需要收集什么。
事实上,你可能要考虑移除标签和刻度,象上面的图表所作的那样,以更好地得从整体上理解数据。
技巧五:创建案例和事件的年表
在任何复杂故事的最初就开始创建关键事件和案例的年表。你可以用Excel、Word文档或TimeFlow这样的特殊工具来完成这一任务,但在有些时候,你会发现数据集你可以分层。周期性地读这些数据,将告诉你在报道中需要去填充的那个新闻洞。
技巧六:与你的图形部门尽早并经常接触
在你的编辑部与艺术家和设计师围绕可能的图表展开头脑风暴。他们将提供好的看数据方式,好的互动建议,知道如何将数据和报道相连接。尽早知道需要收集什么数据将使报道更加容易,或者当你无法收集到时可以提醒团队图表无法实现。
发布建议
你可能在数据探索上只花费了几天或几个小时,或者为了报道已经花费了几月。但当到了发布的时候,两方面变得更加重要。
还记得在早期探索时缺失了某年的数据么?突然间,没有它你寸步难进。还记得在报道中你曾经忽略过的所有坏数据?它们全都跑回来困扰你。原因在于你不能围绕坏数据写稿件。但是在图表中,你要么拥有所需的一切数据,要么一无所有,没有中间地带。
- 在收集数据上的精力大大影响最终的交互式图表
-
在互动图形中无从隐藏。如果你真的要让你的读者以他们想要的任何方式探索数据,那么所有的数据元素必须如其所声称的那样。用户可能在任何时候发现各种错误,这将长年累月的困扰你。如果你建立自己的数据库,这意味着你应该做校对、事实核查、审稿整个数据库。如果你使用政府提供的记录,你要决定要做多少抽查,当你发现不可避免的错误时如何处理。
- 为两种读者做设计
-
图表——无论是独立的交互式形态还是报道的静态可视化配图——应当满足两类不同的读者。它应当一目了然易于理解,也应足够复杂、能为希望了解更多的人提供有趣的内容。如果你让它互动,确保你的读者得到的东西比单一的数字或姓名更多。
- 传达一个理念——然后简化
-
确定你只想让人们看到一样东西?决定你希望给读者的压倒性印象,然后让其他所有东西消失。在很多情况下,这意味即便互联网允许提供一切,你还是要移除信息。除非你的主要目的是报告的透明度,不然时间轴或年表中包含的大多数细节都并不十分重要。在静态图形中,它们是种干扰。在交互式图形中,那将十分枯燥。
— 莎拉·科恩(Sarah Cohen),杜克大学