数据新闻手册 中文 1.1 BETA
读取...
Custom Search
Web
 
 
 

用可视化来讲故事

数据可视化受到关注有好几个原因。不仅因为它特别炫、特别吸引眼球——在分享和吸引读者方面是有价值的社会化硬通货——还因为它具备强大的认知优势:人类大脑的一半完全是用于处理可视化信息的。当你给用户展示一张信息图的时候,你已经以大脑的最大带宽路径在影响他了。一张设计优良的数据可视化图能即时给予观者深刻的印象,并能穿透一个复杂故事的芜杂直抵问题的核心。

但是,不同于其他视觉媒介——比如图片和视频——数据可视化深深地植根于核心事实上。虽然加入美化设计的元素,数据可视化图却少受情绪掌控。在这个媒体专业化程度越来越高的时代,为了迎合受众口味经过裁制供应的信息产品往往为独特的观点。而数据可视化——通常表述为数据新闻——给植根于事实的故事讲述提供撩人的机会,而不是狂热的盲信。

此外,跟其他类型的叙事新闻一样,数据可视化对突发新闻——例如在当地一起事故中迅速报道最新信息和伤亡人数——和特写故事同样有用,它能深入一个话题并提供新的观点,帮助你以全新的方式重新审视熟悉的事物。

以全新的角度看待熟悉的事物

事实上,在全球经济危机开始一年后,也就是2009年晚些时候,《纽约时报》发布的一张互动式图表即例证了数据可视化在检验公众惯常看法方面的能力。当时美国全国的失业率徘徊在9%上下,用户通过各种人口统计学和受教育程度等指标来筛选美国的人口,可以此来查看会得到怎样戏剧性变化的比率。结果是这样的,该比率在受过高等教育的中年女性中只占到4%以下,却几乎涵盖了一半未完成中学学业的年轻男性黑人。并且,这种“不同”并不是什么新鲜事——这是一个被反反复复多加强调的事实,展示的是不同群体不同的历史地位。

Figure 4. The Jobless Rate for People Like You (New York Times)

好的数据可视化图会在你的脑海里久久留下关于事实、趋势或者过程的心理模型。有多少人看过2004年12月由海啸研究者们发布的一个动画?动画展示了由印度尼西亚地震引发往外辐射的阶式波浪横贯了整个印度洋,威胁南亚和东非沿海的数以百万计的居民。

数据可视化——连同它们带来的相关审美趣味——甚至能成为文化上的试金石。比方说在2000年和2004年美国大选中用以表现深奥的政治分区。“`红色”代表共和党控制的州占据了中心地带,“`蓝色'代表民主党控制的州则聚集在东北和中西部。而在2000年前,美国主要的广播电视网络则很随意地切换红色和蓝色来代表两个党派,有一些更是每4年切换一次。因此,美国民众对共和党人的记忆就总停留在1984年总统大选中,罗纳德·里根以压倒性的优势赢得了(50个州里的)49个``蓝色”州

鉴于每个图表都会造成视觉疲劳,另一种提供强大事实证据的图表产生了。例如《纽约时报》发布的2006地图运用了大小不等的圆饼来表示(古斯塔夫飓风发生后)新奥尔良大疏散中成百上千的民众目前居住何地,还有在疏散过程中他们是如何通过个人联系和安置工程横贯散布于整个(美国)大陆的。这些被疏散的流离失所的民众能否重返家园?

所以,现在当我们讨论数据可视化的强大的功能时,必须先清晰地回答下述问题:什么时候应该运用数据可视化?什么时候不用?首先,让我们通过一些例子来了解,数据可视化用于何处才能帮助你给读者讲故事。

展示随时间推移产生的变化

数据可视化图最普通的用途——最常见的是折线图表——可能就是展现数值是如何随时间推移而变化的。比如,1960年代以来中国人口如何增长;2008年经济危机以来失业率的居高不下,这都是很好的例子。当然,数据可视化对随时间推移产生的变化也可以通过其他图表形式来展示。葡萄牙研究者Pedro M. Cruz运用动画圆环图表戏剧化地展示自19世纪早期以来,西欧帝国的衰落。以人口多寡为参照,分别代表英国、法国、西班牙和葡萄牙的大小不等的气泡随着它们海外领地的独立而一一爆裂开来。爆裂的气泡中迸出墨西哥、巴西、澳大利亚、印度,等等……六十年代早期迸出的一大批非洲殖民地几乎让法国的那个气泡消耗殆尽。

《华尔街日报》发布的一个图表展示了100位企业家获取5000万收益需要多少个月。作者用一款免费的数据图表分析软件Tableau Public来制图,100位企业家被一一描绘成飞机,之间相互的对比关系通过飞机起飞轨迹来表示,它们或快、或慢、或沉重。

说到飞机,另外一个有趣的图表则展示了产业大联合的几十年间,美国主要航空公司的市场份额是如何随着时间推移而变化的。卡特政府对民航解除控制之后,大量债务融资的购并在地区性小型航空公司的基础上创立了全国性的航运公司。正如《纽约时报》发布的图表中所显示的。

Figure 5. 不断融合的飞行航线(纽约时报)

考虑到几乎所有读者都会留意到图表中的水平“X”轴代表时间,那么不难想见所有的数据可视化图都应当展示随时间推移产生的变化。

比较数值

Figure 6. 计算战争的人力成本 (BBC)

数据可视化在帮助读者比较两个或更多个离散值(孤立的点集)时,功能也是很出众的。可以带入伊拉克和阿富汗战争中不幸丧生的军人人数(用越南战争中数以千计的牺牲和二战中数以百万计的牺牲人数对比。BBC的一个动画幻灯片就是这么操作的,用作搭配上述战争伤亡的数据库)。《国家地理》杂志则用一张极简的抽象图表来展示,你有多大可能性会死于心脏病(1:5的概率)、中风(1:24),或者空难(1:5051)、蜜蜂叮咬(1:56789)。图中一条巨大的弧线代表总体状况下的死亡几率,1:1的概率让图中其他数字相形见绌,即代表——当灾祸来临,无人可以生还。

BBC和Berg Design设计工作室合作开发了一个网络维度,你在上面可以运用谷歌地图来标记和绘制国际重大时事轮廓模型,比如(墨西哥湾)深海钻井平台漏油事件和巴基斯坦洪水。

展现关联与流向

法国1981年引进的高铁表面看来并没能使整个国家变小。不过,一个很棒的视觉再现图展示了跟过去乘坐普通火车相比,乘坐高铁去往不同目的地到底能节省多少时间。在“`之前'这张图中,一个近乎方形的格子覆盖了全国,到了``之后'图中,朝向巴黎方向的格子被从中砸扁,展示了不仅只有驶往国外目的地的距离``变近了”,省时效率最高的时候发生在旅途最初阶段,也就是在火车行驶至未经改良的轨道不得不减速之前。

在对比两组不同的变量时,请参看Ben Fry的(美国)职业棒球联盟队表现评估图表,是纳入球员的薪酬水平来对比的。左边这一栏列了球队迄今为止的纪录,右边这一栏则是球员薪酬水平。红线(表现不佳)或者蓝线(超常发挥)连接了两纵栏的两组值,非常容易让人感觉出哪些球队老板正在为他们身价昂贵的球员们的破产深表遗憾呢。此外,时间轴的原型,把季度锦标赛的始末以生动的动画形式展现出来。

Figure 7. 薪资 vs. 表现 (Ben Fry)

数据设计

类似于为表现“关系”绘制图表的方式,数据流图将信息编码为粗细和颜色各不相同的连接线。例如,《纽约时报》发布的数据可视化图借贷关系网就是针对欧元区数个无力还贷的成员国来的,图中用线将欧盟成员国跟其在亚太地区的贸易伙伴连接到了一起。这组可视化图的第一张,用带箭头的连接线表示贷款从一国流向另一国,线的粗细取决于贷款额的大小。黄色和橙色的连接线表明“`麻烦大了”——即不大可能收得回的贷款。

换个开心点的话题吧,《国家地理》杂志制作了一张看起来很简单的图,用以展示美国的三个城市——纽约、芝加哥、洛杉矶——跟主要葡萄酒产区的关联,以及不同的运输方式会造成如何截然不同的碳足迹。最终得出的结果是,对于纽约买家来说,从波尔多购买葡萄酒比从加州购进更环保。

“`源地图”是麻省理工商学院开展的一个研究项目,运用数据流图对工业制品零部件和原材料的全球采购进行严谨的研究。多亏他们进行了大量重要的研究,现在用户可以用“源地图”查找从Ecco鞋橙汁等一干产自世界各地的产品,以及它们相应的碳足迹是多少。

展现层级

早在1991年,研究者Ben Shneiderman发明了一种新型可视化形式叫做“树状图”。这种图由多个同心矩形彼此嵌套,每个矩形代表了不同的量,无论是就每个矩形个体而言,还是作为一个内容聚类而言都是这样。不管是用可视化来表现国家机构总体预算和附属机构预算,还是用可视化的行业和公司报告来剖析股市,抑或是把一门编程语言用可视化的全集和子集来表现,(矩形式)树状图对展现某一实体及其构成来说都是一个简洁而直观的界面。此外,另一种有效的图表是(树枝式)树状图,看起来更像典型的组织图,代表其子类的树枝又会作为源枝干继续伸发开去。

Figure 8. OpenSpending.org(开放知识基金会)

浏览大型数据库

有时数据可视化可以把人们熟识的信息以让人耳目一新的方式展现出来,那么,当你握有人们想要浏览的全新信息时,会发生什么?伴随数据时代而来的就是几乎每一天都有惊人新发现诞生,从Eric Fischer作品Flickr快照的地理分布分析到纽约市数万教师的评分结果

当用户深入挖掘和钻研的时候,这些数据集便能发挥其最强大的效能,让人发掘数据背后的相关信息。

2010年初,《纽约时报》获准取得Netflix(收费视频网站)普通级别的记录——哪些地区最频繁租赁哪些影片。虽然Netflix拒绝公开原始数据,但《纽约时报》还是制作了一个很炫的交互式数据库图,用户可以从图中浏览美国12大城市人们花最多的钱去租来看的前100个影片是哪些,每个城市地图中还可以查看不同邮编的街区人们最爱租来看的前10个影片是哪些。颜色深浅分级的“`热图”叠加在每一个社区上,方便用户速览找到每一个影片在哪些社区最受欢迎。

同年末,《纽约时报》发布美国每十年一次的人口普查结果—几小时后相应的数据可视化图就出来了。界面是用flash动画做的,提供了若干可视化选项并允许用户浏览参与人口普查的每一个街区(约有820万人口)居民的种族分布状况、收入状况和受教育程度。数据精度如此之高,以致于当你最初浏览的时候会认为自己可能是探索这个数据库的第一人

同样值得赞赏的是BBC以数据库前端的形式运用可视化,例如他们发布的交通事故死亡调查。另外,还有很多针对大规模数据导出快速索引方面的尝试,例如维基解密发布的伊拉克和阿富汗战争日志。

The 65k Rule

Upon receiving the first dump of Afghan war log data from WikiLeaks, the team processing it started talking about how excited they were to have access to 65,000 military records.

This immediately set alarms ringing amongst those who had experience with Microsoft Excel. Thanks to an historic limitation in the way that rows are addressed, the Excel import tool won”t process more than 65,536 records. In this case, it emerged that a mere 25,000 rows were missing!

The moral of this story (aside from avoiding using Excel for such tasks), is to always be suspicious of anyone boasting about 65,000 rows of data.

Alastair Dant, the Guardian

Figure 9. 英国道路上的每例死亡 1999-2010 (BBC)

想象交叉变化结果

Amanda Cox发表于《纽约时报》的“豪猪图”(porcupine chart)描绘了多年来乐观美国的悲剧赤字预测,该图显示了有时候“发生了什么”比“什么都没发生”要没意思的多。Cox的曲线图展示了战后(越南战争)十年以及税收减免政策实施后财政赤字的变化曲线,可以看出经事实验证,之前的预期是多么的不切实际。

Figure 10. 预算预测与真实对比 (纽约时报)

布拉得·维克托(Bret Victor)是一位长期就职于苹果公司的界面设计师(用可视化传达量化信息,“干掉数学”理论的鼻祖),他创建了一种_活性文件_的原型。在他的例子中,节约能源的创意包括若干可编辑前提,比如关闭无人房间的灯这个小小的举动能帮美国人节约2-40个煤炭发电厂的输出电力。改变对文本段落中引用的比例,当页剩余文本内容则会相应进行自动更新!

《纽约时报》的马修·埃里克森(Matthew Ericson)编译了“可视化、制图和交互式图表的各种运用” 列表,可以帮助您查看更多例子和建议。

什么时候不宜使用数据可视化

总而言之,有用的数据可视化取决于所用信息是否干净、精确、有意义。如同极好的叙事新闻总是充斥着大量的引语、事实和描述,数据可视化是否优秀也仅取决于其数据质量高不高。

当文本和多媒体能够更好地讲述你的故事

有时候,孤立的数据并无法讲出一个吸引人的故事。虽然一张包含趋势线或者统计数值概要的简单图表能起到一定作用,但是一个跟现实影响紧密结合的故事更能在第一时间有力地吸引读者。

当你掌握数据量过少的时候

正如俗话说,``一个数字说明不了任何问题。'新闻编辑在引用数据时通常比较克制,他们会先考虑``(这个数字)是跟什么去对比的?'趋势走向是往上还是往下?它表现正常吗?

当你所掌握的数据变化很小,没有明晰的趋势或者结论的时候

有时候你把数据导入Excel或其他类似的制图app后会发现信息很杂——一大堆波动曲线,或者相对平直的趋势线。这是因为你把基线从零调整到你所掌握数据中的最低值,为了给予线条更多样的形状吗?不是!看来你掌握的是一堆模糊不清的数据,你需要做更多数据挖掘和分析工作。

当地图不是地图的时候

当空间要素不那么重要和有吸引力的时候,或者关注焦点更多聚集在数值趋势上,比方说随时间推移发生的变化;或者所展示的有相似点的区域并不毗邻。

别忘了还有表格

如果你所掌握的数据量相对较少,但其中一些信息可能会对你的部分读者有用,那么你不妨考虑直接用表格形式展示这些数据。表格简洁、易读,并且不会臆造一个与预期不符的“故事”。事实上,表格在基础信息罗列方面是非常高效且美观大方的。

吉奥夫·麦克金(Geoff McGhee),斯坦福大学