進入數字時代,調查記者越來越需要在海量數據里尋找好故事、求證關鍵信息,有什麼工具可以有效增強他們的數字信息調查技能呢?深度君為你帶來一張【數字信息調查工具清單】,有助於檢索、處理、存儲、展示信息。點擊此處,還可以查看美國國際記者中心(ICFJ)就此主題發布的網上研討會。
1. 適用於文件處理的工具:
大多數調查記者需要處理的信息大多採用文本文件的形式,例如Word文件,PDF或者掃描圖片。
• 想存儲和搜索成批的文件,可以用比dropbox更實用的DocumentCloud。
• 想從PDF裡面抽取文本和表格數據?不用複製黏貼再調整格式啦,現在你還可以用 Tabula, CometDocs ($) and ABBYY FineReader ($)一舉搞定。深度君在這裡稍微講一下從PDF收取數據的神軟件Tabula:它是一款和瀏覽器配合使用的免費軟件,在今年8月6日剛更新成1.0版本,也可兼容 Windows, Mac 和Linux系統。用法為:先上傳PDF文件到Tabula,選中你想抽取的表格信息。數據就能輸出到CSV和任何顯示錶格數據的程序,就是這麼簡單易行。
需要注意的是,Tabula只能抽取“真正的”PDF的數據,而不能選取掃描圖片的數據。如果有掃描的PDF文件,最好還是用OCR軟件(光學字符識別軟件)。這款軟件由騎士基金會支持,大家可以閱讀版本說明,或者從Tabula主頁下載該軟件。
• 想處理(查看、檢索、可視化)成批文件,
• 想把繁重的文件分析工作分解、眾包?有些針對特定主題的軟件已經替你實現了,例如CrowData 和 transcribable。在CrowData上,用戶們可以一起合作來驗證那些OCR工具都難以抽取的數據的真偽,還可以發布數據。而 transcribable更為神奇,賣個關子看看ProPublica或GirHub的介紹吧!
2. 適用於表格數據的工具:
• 分析數據,像Google Spreadsheets或者 Excel($)這樣的電子表格程序是上佳之選,而諸如Statwing和J++ Benford這樣的網上工具則可以幫助你發現異常數據。
• 想做簡單的圖表, DataWrapper ($), RAW, Tableau Public 和萬能的Google Fusion Tables可以幫你的忙。
• 想使用地圖, CartoDB ($) 和 Google Fusion Tables能在普通的地圖上做出炫目的可視化效果。要想用地圖做更高級的分析,請使用QGIS。另一款軟件MapStarter,可以統計數據,主頁的附錄列出了海量實用工具,還業界良心地指出了適合的用途,方便用戶各取所需。
• 想把複雜的系統和關係網做成漂亮的數據圖?那就試試Gephi, yED, NodeXL (配合 Excel) 或者Maltego ($)。
• 想展現事件順序,你可以選擇快捷好用的時間軸工具,例如Timeline.js和Storymap.js。
• 當數據不連貫、不易分析時,就要清洗數據。強烈推薦設置清晰的 OpenRefine 和 Data Wrangler。
• 高級統計分析,就需要用到例如R這樣的編程語言,或者可產生圖表的 RStudio。
3. 適用於網絡數據的工具:
• 採集網絡數據,最簡便的方法是用Google Spreadsheets (點此查看教程),或者像Scraper 和TableTools2這樣的瀏覽器插件。
• 要是從更複雜的網頁採集信息,就需要高級採集工具。 import.io, Kimono和 OutWit Hub ($)會是你的好幫手。
• 在網上分享文件,可以選擇使用 SpiderOak 和tarsnap。為了安全起見,盡量不要使用Dropbox 和 iCloud。
• 我們都需要時時刻刻注意自己的數據安全。可以多學學Security in a Box上面提供的工具,有效保護自己的身份信息和數據。
4. 與他人建立聯繫:
•School of Data是一個線上學習平台,用戶可以學習如何在新聞和遊說活動中使用數據。
• NICAR-L 提供有關計算機輔助報道的問題討論信息,通常也會發布美國計算機輔助報道協會(NICAR)的最新消息,可能會為你帶來大量寶貴建議。
• 歐洲新聞中心和開放知識基金會聯手為全球記者提供了數據驅動新聞的訂閱郵件,提供實用業界信息。
5. 更多資源:
• 數據新聞手冊(Data Journalism Handbook )和數據新聞課程(Data Journalism Course)是非常實用的免費線上材料。
• Geojournalism Handbook里推薦了眾多有用的工具和實踐做法。
• Story Based Inquiry整合了一份調查報道記者專用的軟件包,涵蓋從掃描識別數據,文件加密,分享、記錄文件到線上調查等用途。
編輯/周煒樂