进入数字时代,调查记者越来越需要在海量数据里寻找好故事、求证关键信息,有什么工具可以有效增强他们的数字信息调查技能呢?深度君为你带来一张【数字信息调查工具清单】,有助于检索、处理、存储、展示信息。点击此处,还可以查看美国国际记者中心(ICFJ)就此主题发布的网上研讨会。
1. 适用于文件处理的工具:
大多数调查记者需要处理的信息大多采用文本文件的形式,例如Word文件,PDF或者扫描图片。
• 想存储和搜索成批的文件,可以用比dropbox更实用的DocumentCloud。
• 想从PDF里面抽取文本和表格数据?不用复制黏贴再调整格式啦,现在你还可以用 Tabula, CometDocs ($) and ABBYY FineReader ($)一举搞定。深度君在这里稍微讲一下从PDF收取数据的神软件Tabula:它是一款和浏览器配合使用的免费软件,在今年8月6日刚更新成1.0版本,也可兼容 Windows, Mac 和Linux系统。用法为:先上传PDF文件到Tabula,选中你想抽取的表格信息。数据就能输出到CSV和任何显示表格数据的程序,就是这么简单易行。
需要注意的是,Tabula只能抽取“真正的”PDF的数据,而不能选取扫描图片的数据。如果有扫描的PDF文件,最好还是用OCR软件(光学字符识别软件)。这款软件由骑士基金会支持,大家可以阅读版本说明,或者从Tabula主页下载该软件。
• 想处理(查看、检索、可视化)成批文件,
• 想把繁重的文件分析工作分解、众包?有些针对特定主题的软件已经替你实现了,例如CrowData 和 transcribable。在CrowData上,用户们可以一起合作来验证那些OCR工具都难以抽取的数据的真伪,还可以发布数据。而 transcribable更为神奇,卖个关子看看ProPublica或GirHub的介绍吧!
2. 适用于表格数据的工具:
• 分析数据,像Google Spreadsheets或者 Excel($)这样的电子表格程序是上佳之选,而诸如Statwing和J++ Benford这样的网上工具则可以帮助你发现异常数据。
• 想做简单的图表, DataWrapper ($), RAW, Tableau Public 和万能的Google Fusion Tables可以帮你的忙。
• 想使用地图, CartoDB ($) 和 Google Fusion Tables能在普通的地图上做出炫目的可视化效果。要想用地图做更高级的分析,请使用QGIS。另一款软件MapStarter,可以统计数据,主页的附录列出了海量实用工具,还业界良心地指出了适合的用途,方便用户各取所需。
• 想把复杂的系统和关系网做成漂亮的数据图?那就试试Gephi, yED, NodeXL (配合 Excel) 或者Maltego ($)。
• 想展现事件顺序,你可以选择快捷好用的时间轴工具,例如Timeline.js和Storymap.js。
• 当数据不连贯、不易分析时,就要清洗数据。强烈推荐设置清晰的 OpenRefine 和 Data Wrangler。
• 高级统计分析,就需要用到例如R这样的编程语言,或者可产生图表的 RStudio。
3. 适用于网络数据的工具:
• 采集网络数据,最简便的方法是用Google Spreadsheets (点此查看教程),或者像Scraper 和TableTools2这样的浏览器插件。
• 要是从更复杂的网页采集信息,就需要高级采集工具。 import.io, Kimono和 OutWit Hub ($)会是你的好帮手。
• 在网上分享文件,可以选择使用 SpiderOak 和tarsnap。为了安全起见,尽量不要使用Dropbox 和 iCloud。
• 我们都需要时时刻刻注意自己的数据安全。可以多学学Security in a Box上面提供的工具,有效保护自己的身份信息和数据。
4. 与他人建立联系:
•School of Data是一个线上学习平台,用户可以学习如何在新闻和游说活动中使用数据。
• NICAR-L 提供有关计算机辅助报道的问题讨论信息,通常也会发布美国计算机辅助报道协会(NICAR)的最新消息,可能会为你带来大量宝贵建议。
• 欧洲新闻中心和开放知识基金会联手为全球记者提供了数据驱动新闻的订阅邮件,提供实用业界信息。
5. 更多资源:
• 数据新闻手册(Data Journalism Handbook )和数据新闻课程(Data Journalism Course)是非常实用的免费线上材料。
• Geojournalism Handbook里推荐了众多有用的工具和实践做法。
• Story Based Inquiry整合了一份调查报道记者专用的软件包,涵盖从扫描识别数据,文件加密,分享、记录文件到线上调查等用途。
编辑/周炜乐