-
-
-
全球深度報道網中文站自2014年9月開通以來為大家介紹了大量國外的數據新聞工具,囊括數據採集、分析和可視化等方面。我們將最常用的工具整理如下,並附上介紹其具體使用方法的文章。我們還會及時更新文中內容,歡迎訪問網站cn.gijn.org“資源庫”內的“數據新聞”欄目,了解最新最全的數據新聞工具包。
數據採集
數據採集(Data Scraping)又稱作數據抓取或網頁抓取,是利用電腦程序從網頁採集文字和數據,並將其整理成便於分析的格式。比較常用的方法是用R語言或Python編寫“爬蟲”程序,但也可以用現成的軟件或基於網頁的應用,包括Helium Scraper(每月收費100美金)、 Import.io、 parsehub、 Web Scraper,中文用戶還可以選擇造數。
相關文章:
想知道有哪些議員在“吃空餉”?自己寫一個爬蟲吧!(2016)
記者採集網絡信息的職業倫理問題(2015)
新聞人網絡數據採集入門(2015)
網絡搜索
對於現代記者而言,網絡搜索的重要性怎麼強調都不為過。全球深度報道網刊登過多篇介紹網絡搜索技巧的文章,尤其是BBC搜索專家Paul Myers的文章深受讀者歡迎。我們將相關文章再次整理如下:
清單 | BBC專家再薦新工具 “人肉”搜索調查利器逐個看(2017)
報道亞洲| BBC專家:網絡搜索,大有可為(2016)
2015調查新聞新招:網絡搜索技法大全(2015)
網絡搜索專家:有了這些網站,在中國做調查報道會更容易(2015)
實用貼:如何用網絡搜索搞定新聞要素?(2015)
實用帖:網絡搜索工具&調查技巧分享(2015)
數據清洗
數據一多,就有可能殘缺、冗餘,或名稱不一致,數據量越大越可能出錯。免費開源的數據清洗工具Open Refine可以幫你在使用數據前挖掘、清洗數據——別怕原始數據會因此遺失,它在網上運行的同時,也悄悄把所有數據存進了你的電腦。
相關文章:
處理數據、製作可視化:數據記者利器推薦(2016)
數據清洗神器Open Refine簡明入門(2016)
文檔存儲與分享
調查記者往往需要處理大量電子文檔,例如Word文件,PDF或者掃描圖片,用於批量存儲和搜索文檔的DocumentCloud比一般的雲端存儲工具更切合記者需要。
DocumentCloud曾經是調查記者與編輯聯盟(Investigative Reporters and Editors,IRE)的項目,主要是為了方便記者處理電子文檔,功能包括雲端存儲、分享、添加註釋,分類管理等。目前已經有1,619家新聞機構的約8400名記者使用該工具,既有美國《紐約時報》、《華盛頓郵報》和英國《衛報》等傳統主流媒體,也有類似維基解密這樣的網絡協作項目。
相關文章:
電子文檔或暴露隱私 專家教你如何自我保護(2017)
普利策獎得主教你五步,做好數字化調查(2017)
導入PDF文檔
PDF文檔一般需要轉換成Word、TXT或CSV等格式後方能對文字和數據作進一步加工和分析。 目前比較先進的網絡工具是CometDocs(美國調查新聞記者免費,其他人員每月9.99美元),OnlineOCR.net(免費,而且能識別繁簡體中文),二者最大的特點是支持光學字符識別(Optical Character Recognition, OCR)技術,可以識別掃描件或照片中的文字。
另外還有專門識別表格的Tabula(免費)和Adobe的官方轉換工具(24美元一年)。
相關文章:
PDF文檔數據難處理?資深記者教你幾招(2017)
從PDF中提取數據表(2014)
數據可視化
Datawrapper是一個開源的數據可視化工具,可以免費生成圖表並保存為PNG格式,目前可生成折線圖、柱狀圖、疊加柱狀圖、地圖、圓環圖、表格圖。付費後可以獲取圖像鏈接(用於嵌入網頁)以設計更多元素。
相關文章:
處理數據、製作可視化:數據記者利器推薦(2016)
CartoDB是一款交互式地圖製作工具,提供“一鍵式製圖”功能,上傳數據後會自動推薦一系列地圖格式供用戶選擇和修改,方便實用,適合缺乏編程基礎又想嘗試可視化的人士。
該程序最初由兩名西班牙研究生物多樣性和自然保護的科學家開發,至今已經擁有超過12萬用戶,尤其深受數據新聞工作者的喜愛。
相關文章:
清單 | 十個地圖可視化工具 從易到難總有一款適合你(2017)
地圖可視化神器CartoDB簡明使用指南(2015)
Fusion Tables屬於Google Drive產品中的一項應用,是一個功能龐雜的製圖工具,適用於CSV和Excel等常見數據格式。繪製地圖方面,其特點之一是能夠融合不同的數據集,而且地理信息編碼功能也十分突出。記錄地理信息的KML(Keyhole Markup Language)是其常用格式。
相關文章:
清單 | 十個地圖可視化工具 從易到難總有一款適合你(2017)
調查記者專用:數字信息調查工具清單(2015)
TimelineJS用於製作新聞事件時間軸,屬於免費且開源的可視化工具,目前支持40種語言。你需要先用Google Spreadsheet按照格式要求編製一份表格,將表格鏈接複製到TimelineJS,然後就能自動生成一個時間軸了。
相關文章:
普利策獎得主教你五步,做好數字化調查(2016)
編譯/周穗斌
編輯/Ivan Zhai
-
-