-
-
-
全球深度报道网中文站自2014年9月开通以来为大家介绍了大量国外的数据新闻工具,囊括数据采集、分析和可视化等方面。我们将最常用的工具整理如下,并附上介绍其具体使用方法的文章。我们还会及时更新文中内容,欢迎访问网站cn.gijn.org“资源库”内的“数据新闻”栏目,了解最新最全的数据新闻工具包。
数据采集
数据采集(Data Scraping)又称作数据抓取或网页抓取,是利用电脑程序从网页采集文字和数据,并将其整理成便于分析的格式。比较常用的方法是用R语言或Python编写“爬虫”程序,但也可以用现成的软件或基于网页的应用,包括Helium Scraper(每月收费100美金)、 Import.io、 parsehub、 Web Scraper,中文用户还可以选择造数。
相关文章:
想知道有哪些议员在“吃空饷”?自己写一个爬虫吧!(2016)
记者采集网络信息的职业伦理问题(2015)
新闻人网络数据采集入门(2015)
网络搜索
对于现代记者而言,网络搜索的重要性怎么强调都不为过。全球深度报道网刊登过多篇介绍网络搜索技巧的文章,尤其是BBC搜索专家Paul Myers的文章深受读者欢迎。我们将相关文章再次整理如下:
清单 | BBC专家再荐新工具 “人肉”搜索调查利器逐个看(2017)
报道亚洲| BBC专家:网络搜索,大有可为(2016)
2015调查新闻新招:网络搜索技法大全(2015)
网络搜索专家:有了这些网站,在中国做调查报道会更容易(2015)
实用贴:如何用网络搜索搞定新闻要素?(2015)
实用帖:网络搜索工具&调查技巧分享(2015)
数据清洗
数据一多,就有可能残缺、冗余,或名称不一致,数据量越大越可能出错。免费开源的数据清洗工具Open Refine可以帮你在使用数据前挖掘、清洗数据——别怕原始数据会因此遗失,它在网上运行的同时,也悄悄把所有数据存进了你的电脑。
相关文章:
处理数据、制作可视化:数据记者利器推荐(2016)
数据清洗神器Open Refine简明入门(2016)
文档存储与分享
调查记者往往需要处理大量电子文档,例如Word文件,PDF或者扫描图片,用于批量存储和搜索文档的DocumentCloud比一般的云端存储工具更切合记者需要。
DocumentCloud曾经是调查记者与编辑联盟(Investigative Reporters and Editors,IRE)的项目,主要是为了方便记者处理电子文档,功能包括云端存储、分享、添加注释,分类管理等。目前已经有1,619家新闻机构的约8400名记者使用该工具,既有美国《纽约时报》、《华盛顿邮报》和英国《卫报》等传统主流媒体,也有类似维基解密这样的网络协作项目。
相关文章:
电子文档或暴露隐私 专家教你如何自我保护(2017)
普利策奖得主教你五步,做好数字化调查(2017)
导入PDF文档
PDF文档一般需要转换成Word、TXT或CSV等格式后方能对文字和数据作进一步加工和分析。 目前比较先进的网络工具是CometDocs(美国调查新闻记者免费,其他人员每月9.99美元),OnlineOCR.net(免费,而且能识别繁简体中文),二者最大的特点是支持光学字符识别(Optical Character Recognition, OCR)技术,可以识别扫描件或照片中的文字。
另外还有专门识别表格的Tabula(免费)和Adobe的官方转换工具(24美元一年)。
相关文章:
PDF文档数据难处理?资深记者教你几招(2017)
从PDF中提取数据表(2014)
数据可视化
Datawrapper是一个开源的数据可视化工具,可以免费生成图表并保存为PNG格式,目前可生成折线图、柱状图、叠加柱状图、地图、圆环图、表格图。付费后可以获取图像链接(用于嵌入网页)以设计更多元素。
相关文章:
处理数据、制作可视化:数据记者利器推荐(2016)
CartoDB是一款交互式地图制作工具,提供“一键式制图”功能,上传数据后会自动推荐一系列地图格式供用户选择和修改,方便实用,适合缺乏编程基础又想尝试可视化的人士。
该程序最初由两名西班牙研究生物多样性和自然保护的科学家开发,至今已经拥有超过12万用户,尤其深受数据新闻工作者的喜爱。
相关文章:
清单 | 十个地图可视化工具 从易到难总有一款适合你(2017)
地图可视化神器CartoDB简明使用指南(2015)
Fusion Tables属於Google Drive产品中的一项应用,是一个功能庞杂的制图工具,适用于CSV和Excel等常见数据格式。绘制地图方面,其特点之一是能够融合不同的数据集,而且地理信息编码功能也十分突出。记录地理信息的KML(Keyhole Markup Language)是其常用格式。
相关文章:
清单 | 十个地图可视化工具 从易到难总有一款适合你(2017)
调查记者专用:数字信息调查工具清单(2015)
TimelineJS用于制作新闻事件时间轴,属于免费且开源的可视化工具,目前支持40种语言。你需要先用Google Spreadsheet按照格式要求编制一份表格,将表格链接复制到TimelineJS,然后就能自动生成一个时间轴了。
相关文章:
普利策奖得主教你五步,做好数字化调查(2016)
编译/周穗斌
编辑/Ivan Zhai
-
-