我们进入了一个言必称“大数据”的时代,以致这个出现不过两年的概念似有被滥用之嫌。但无可否认的事实是,全球各地政府、企业,乃至个人每天都在制造着海量数据。这些数据中又往往隐藏着“独家猛料”,吸引着越来越多的记者投身其中,进而在新闻行业中催生了数据新闻(Data Journalism)这一时髦的分支。
大数据时代的记者有必要懂得如何获取“结构化的信息”,通过整理并准确地分析数据来挖掘出有价值的新闻。全球深度报道网为此专门整理出一份数据新闻实用清单,帮助大家推开大数据之门。如果你有任何最新资料,都欢迎你告诉我们:hello@gijn.org。衷心感谢你的支持。
入门必读
数据新闻在上世纪80-90年代以计算机辅助新闻报道(Computer-Assisted Reporting)的名义首次出现在新闻行业。
1989年在美国成立的计算机辅助新闻报道协会(The National Institute for Computer-Assisted Reporting)是一个致力于在全世界培养深度报道记者的组织。除了开展新手训练营等培训项目,协会还设有电子图书馆和练习用数据库,并每年举办一次计算机辅助新闻报道研讨会。
协会将有关资料集结出版,现已成为一部畅销书籍:《计算机辅助新闻报道实用手册》(Computer-Assisted Reporting: A Practical Guide)。手册的网络版可供读者免费阅读。
对于刚接触数据新闻的朋友,美国的Poytner网站以“五个秘诀”和“十个工具”教你如何效地分析数据。
在英国,深度报道新闻学中心(The Center for Investigative Journalism)也出版了一本有关数据新闻学的手册。CIJ还在其网站上分享了大量关于数据新闻的书籍、指南和视频资源。
著名的数据驱动新闻学(Data Driven Journalism)网站准备了非常全面的学习资料,值得参考。
你也可以在国际记者网上找到数据新闻有关的课程、辅助工具和其它资料。
Hacks/Hackers 是一个聚集大批程序员和深度报道记者的全球性组织,目标是推动用数据发掘有影响力的报道。该组织通过各地分的支机构向记者提供培训课程。
The Investigative Dashboard网站上囊括了数据挖掘、数据可视化以及人际关系网络分析等方面的应用工具。
不得不提的还有数据新闻学手册(Data Journalism Handbook)是一本由来自世界各国的数十位数据新闻学专家合作编纂而成的教材。这是一本由世界各国的数十位数据新闻专家合著的教材。你可以在网上免费下载包括中文在内的各语言版本。
数据挖掘
数据新闻记者并不一定要成为程序猿,但懂得通过计算机语言运行一些简单的数据处理程序,甚至亲自动手编写一小段算法可帮助你更好地理解数据背后的逻辑,也更有利于在开展数据新闻项目的时候加强和技术部门同事之间的沟通。
对计算机一窍不通?上网总会吧?那就够了。
Code Academy是一个提供互动式编程培训的免费网站,手把手地教你使用常见的程序语言,包括HTML, CSS, JavaScript, Python, Ruby, 和PHP.
麻省理工大学官方网站提供了若干免费在线课程,讲解如何使用Python,Java和C++这些计算机语言编写程序。
计算机教育专家Michael Mart在网上发布了一本开源的培训教材,供人们自学Ruby on Rails。
想知道如何从网页和各种电子文档(尤其是PDF)抓取文本数据?新闻网站ProPublica开列出一份清单,囊括了相关的若干实用工具和自学教程。
此外,scraperwiki是一个抓取数据的在线工具,,Online Journalism网站发布了一篇相关的入门指南。
数据分析
Investigative Reporters and Editors上有将PDF文件转换成普通文本格式文件的简单教程。
如果想将PDF文件中的电子表格导出为Excel表格,则可以参考加拿大麦吉尔大学的网上教程。
School of Data提供了从如何找到合适的数据库,到基础的Excel使用技巧,再到如何利用挖掘到的数据完成新闻报道的一整套解决方案。
程序开发员Dan Nguyen整合了使用Google Refine清洗结构化数据的方法,以及一些视频教学链接。
Github提供了“SQL入门介绍”。
数据可视化
美国统计学家Edward Tufte在可视化信息测绘方面有一些著述和课程,现已成为行业标准。
美国统计学家邱南森创立了Flowing Data网站,他同时也是《鲜活的数据:数据可视化指南》和《 数据之美:一本书学会可视化设计》这两本书的作者。
Visualisationofdata.com 网站提供了信息图制作指南,以及其他相关信息。
Esri为ArcGIS爱好者准备了一套关于如何使用ArcGIS进行信息测绘的免费课程。
Gustavo Faleiros创建了JEO. JEO是一个WordPress主题模板,供新闻机构、博客博主和非政府组织在电子地图上发布带有地图定位信息的新闻报道。
Peter Aldhous 整合了一套入门教程,是关于如何使用Excel的免费社交网络插件NodeXL的。
数据可视化目录是“帮你找到合适的数据可视化方案”的一个持续进行中的项目。
数据统计
一个名为OpenIntro的网站发布了免费的统计学教材OpenIntro Statistics.
加州大学伯克利(伯克莱)分校创建了Knight Digital Media Center,为数据新闻记者提供一整套数据统计方面的在线课程。该课程为期两天,而且完全免费。
著名在线教育平台Coursera的签约讲师,美国统计学家邱南森创立了Flowing Data网站,其中囊括了一系列数据统计公开课,这包括:
- 卫斯理大学(Wesleyan University)的公开课,Passion-Driven Statistics
- 多伦多大学(University of Toronto)的公开课,Statistics, Making sense of data
- 普林斯大学(Princeton University)的公开课,Statistics One
- 加州大学伯克利(伯克莱)分校(UC Berkeley)的公开课,Introduction to Statistics
此外,以下是我们推荐的若干数据统计方面的经典书籍:
- Damned Lies and Statistics, 作者:Joel Best
- Data Analysis for Politics and Policy, 作者:Edward Tufte
- Designing Social Inquiry, 作者:Gary King /Robert O. Keohane /Sidney Verba
- The Drunkard’s Walk: How Randomness Rules Our Lives,作者:Leonard Mlodinow
- How To Lie with Statistics, 作者: Darrel Huff
- Naked Statistics:Stripping the Dread from the Data, 作者:Charles Wheelan
- The Signal and the Noise, 作者:Nate Silver
- Thinking, Fast and Slow, 作者: Daniel Kahneman
数据新闻博客
数据新闻中文网:由一群热爱新闻又热爱数据的志愿者创立的专业网站,定期为读者分析海内外优秀的数据新闻作品、报道数据新闻业界会议、翻译授权的学习课程及资料、组织线下的讲座培训、介绍国内外的奖学金及工作机会。
财新数据可视化实验室:成立于2013年10月8日,是结合新闻编辑和数据研发的虚拟实验室,将数据应用于新闻采编及呈现。他们的目标是做中国最好的数据新闻团队,做世界一流的数据可视化团队。
ProPublica Nerd Blog:汇集了世界各地的数据新闻记者和新闻编辑人员的揭秘报道
Nacion Data:这是一个西班牙语的数据新闻博客,它属于阿根廷的日报La Nación
Online Journalism Blog:英国著名记者Paul Bradshaw的博客,内容涵盖数据新闻、公民新闻、博客和影客等等
Open Knowledge Foundation:开放知识基金会的博客。该基金会致力于在国际范围内传播各种形式的开放知识,并推进这些开放知识的使用
Toledol:一个关于计算机辅助新闻报道的葡萄牙语博客
Computational and Data Journalism:囊括数据新闻领域的最新消息和有关技术的文章
Dajore:主要公布数据新闻学研究进展的博客
Driven by Data:讲解数据新闻素材的筛选方法
Vis4.net:信息可视化和数据新闻学方面的杂感
Reporter’s Lab:杜克大学运营的博客,内容涵盖公共事件报道中的调查工具、报道技巧和研究方法
Tow Center for Digital Journalism:哥伦比亚大学运营的博客,展示新兴技术如何改变着新闻业以及读者对于新闻的消费行为
数据新闻相关书籍
《计算机辅助新闻报道:全面导读》(Computer-Assisted Reporting: A Comprehensive Primer),作者:Fred Jones/David McKie
《计算机辅助新闻报道:实用指南》(Computer-Assisted Reporting: A Practical Guide),作者:Brant Houston
《计算机辅调查:记者的策略与工具》(Computer-Assisted Research: Information Strategies and Tools for Journalists),作者:Nora Paul/Kathleen A. Hansen
《数据新闻学手册》(The Data Journalism Handbook),由来自世界各国的数十位数据新闻学专家合作编纂而成。你可以在网上免费下载到该手册的多语种版本,包括英文版、法文版、格鲁吉亚文版、俄文版和西班牙文版
《可视化的新闻故事:计算机辅助新闻报道指南》(Mapping for Stories: A Computer-Assisted Reporting Guide),作者:Jennifer LaFleur/Andy Lehren
《精确报道:新闻报道中的社会科学方法入门》 (Precision Journalism: a Reporter’s Introduction to Social Science Methods),作者:Philip Meyer
数据新闻学会议
美国计算机辅助新闻报道协会(NICAR)创办了一年一度的计算机辅助新闻报道会议;每年有数百人参与这个会议。此外,协会还提供数据新闻方面的“新手训练营”。
“数据收获季”会议(Data Harvest)由Journalismfund.eu,Wobbing Europe 以及FarmSubsidy.org三家共同举办。最近一次会议已于2014年5月在比利时布鲁塞尔成功召开。
国际新闻节(The International Journalism Festival)每年在意大利山城佩鲁贾召开。该活动包括数据新闻学的训练班。
全球深度报道新闻学会议(The Global Investigative Journalism Conference)每两年召开一次,并组织一系列数据新闻方面的培训活动。
加纳的数据训练营(Ghana Data boot camp)是位于加纳的数据新闻学培训机构。受训人员能学到如何定位、获取并分析采掘垦殖业的公开数据。