全球深度报道网的“每周数据新闻精选”(Top Ten #ddj),将分享由社交网络程序NodeXL统计得到的最热门#ddj话题推文。本期精选为你带来《金融时报》的数据新闻趋势分析,探究一篇成功的数据报道如何炼成,以及如何用编程与机器学习方法解码美国国会两党的“口水战”。
Data Driven Journalism: 数据新闻的成功因素
尽管近年来业界对数据新闻的讨论从未停止,数据技术和叙事技巧愈发受到重视,但都柏林大学助理教授Beharh Heravi指出,目前对优秀数据新闻所运用的方法与技术进行系统性研究与总结的仍然少之又少。一篇数据报道的质量究竟由哪些因素决定?在其研究中,Heravi改进了从新闻角度研究数据故事的传统方法,引入对技术元素的考量,分析了全球编辑网络(Global Editors Network)2013至2016年间44项“数据新闻奖”获奖报道。
Herati对获奖报道的目的、交互模式及所运用的数据工具与技术都进行了分类与统计。通过分析报道涉及的工具与技术,Herati发现,数据可视化是最突出、最为获奖作品所广泛应用的一项技术。这其中包括对Tableau Public、Javascript、D3.js和Highcahrts等的运用。其余最“吃香”的技术依次是网页设计与发布、数据分析、地图可视化、数据库、平面编辑与发布、数据与内容管理平台等。
《金融时报》:探索2017数据新闻的发展
数据作为独家信源的价值正为越来越多记者所认识。而《金融时报》这份数据新闻趋势报告着重指出,要写出独特的故事,仅挖掘人人共享的公开数据库已远远不够,数字记者应要学会创建自己的数据集,提炼数据的价值。
对此,《金融时报》列举了三个办法,并分别以三个案例作了详细解释:(1)从头创建数据集;(2)收集与整理已有的数据集,使其更有价值;以及(3)尝试使用另类格式及大量的数据。
(1)自己创建数据集
媒体上关于特朗普的报道随处可见,尤其是他的极端言论。对比之下,希拉里在此方面的态度要谨慎得多。在其《用可视化讲述特朗普如何占据新闻周期》一文中,《华盛顿邮报》利用非营利组织互联网档案馆(Internet Archive)的网络爬虫工具-网站时光机(Wayback Machine),追踪了谷歌新闻主页上长达一年多的新闻报道,收集涉及特朗普和希拉里的新闻报道数目作为研究数据。在图例中,红、蓝色标记分别为特朗普和希拉里的相关报道,而紫色标记为特朗普与希拉里共同出现的文章。
(2)合并数据集
英国《金融时报》的《英国脱欧公投选民年龄分布》一文中,利用英国报业协会的公投结果及英国人口普查数字,将382个选区中的投票率可视化,分析得出投票率与年龄正相关,即年纪越轻,投票率越低。图中每一个粉红色的圆圈代表一个选区。有较多青年人口的格拉斯哥,年龄中位数约为36岁,投票率仅约56%,为所有选区中最低。牛津和剑桥则是例外。牛津的年龄中位数略低于30岁,而剑桥略高于30岁,但因这两个大学城汇聚了积极关注政治的学生,所以投票率都高于70%。
(3)另类数据形式
在《厄尔尼诺对全球粮食产量的影响》中,《金融时报》利用美国国家海洋和大气局(NOAA)的数据制作动图,展现2015年至2016年间海平面温度的异常变化,以此解释厄尔尼诺现象。
接下来,文章根据日本国家农业环境技术研究所的数据,依次以玉米、小麦、水稻、大豆为对象,在地图上标出粮食产区受到厄尔尼诺现象的影响。红色区域为严重负面影响,橘黄色区域为不显著负面影响,淡蓝色区域为不显著正面影响,深蓝色区域为显著正面影响。以下图为例,可以看出世界上大部分的玉米生产区多多少少受到厄尔尼诺的负面影响。
皮尤研究中心:美国两党制下的口水战
2016年极具争议的总统大选,使民主和共和两党的敌对状态骤然鲜明。为了解两党国会议员言论交锋的程度,美国调查机构皮尤研究中心一项研究用编程和机器学习(machine learning methods)相结合的方法,分析了由国会议员发布的94,521篇新闻稿和108,235则脸书帖子,包括相关的点赞数、评论数以及分享数。研究结果按照在各种文书提出的场合、主题和议题分类。
研究发现,通常获得党派或地区投票越多、越坚定于自身党派的议员,更容易发表激进言论。并且,在奥巴马执政期间,民主党人要比共和党人较少批评对方。下图中,红色标示为共和党人,蓝色标示为民主党人,图形表示他们的脸书帖子与新闻稿中表达“反对”(disagreement),“坚决反对”(indignant disagreement)以及“意见一致”(bipartisanship)的比例,在前两者的比较中,共和党人表达对民主党不满的比例明显高出很多。
文/梁晨昱
编辑/Ivan Zhai,梁思然
相关阅读: