全球深度報道網 -

全球深度報道網 (https://cnarchive.gijn.org/2015/11/05/%E5%B9%B2%E8%B4%A7-%E6%95%B0%E6%8D%AE%E6%94%B6%E9%9B%86%E5%92%8C%E5%A4%84%E7%90%86%E5%B7%A5%E5%85%B7%E4%B8%80%E8%A7%88/zh-hant/)

Research

乾貨 | 數據收集和處理工具一覽

By 周煒樂 | November 5, 2015

進入大數據時代，調查報道愈加成為信息戰。從哪裡收集有效數據？如何抽取、篩選、整合、分類大量瑣碎的信息？如何分享、存儲數據，並實現隨取隨用？深度君整理了一張數據收集和處理工具清單，分為八大類，方便實用，各有所長，供大家選擇。

1.全文本搜索和挖掘的搜索引擎：

包括：搜索方法、技術：全文本搜索，信息檢索，桌面搜索，企業搜索和分面搜索

開源搜索工具：

Open Semantic Search：專門用於搜索自己文件的搜索引擎，同樣的還有Open Semantic Desktop Search:可用於搜索單一一台筆記本電腦或單一用戶的文件資源。

InvestigateIX: 用於搜索加密外部設備
Recoll: 適用於Linux系統的桌面搜索引擎
Fuzzy search with lists：清單搜索、模糊搜索

搜素數據庫和API

如果你想編程，你可以試用以下強大的搜索引擎：Solr和Elastic Search，支持索引和API搜索，更多全文搜索、實時檢索、數據分析、多格式數據讀取（JSON, SML, CSV或HTTP）等強大功能等你開發。

2.數據庫、數字文檔、數據管理系統、文件管理系統和內容管理系統：

還在為不同格式的腳註、尾注、文中引用和文獻參考大費腦筋嗎？資源整理神器Zotero的標註和引用功能幫你解決難題。它可以在Word，Open Office添加引用，在Google doc和電子郵件中插入文獻參考，或者為數據庫添加標記。

LibreOffice Calc:開源表格程序
Document cloud:文檔管理系統，管理紙質文件掃描版本或者PDF 格式文件
Semantic MediaWiki: MediaWiki(著名開源引擎，可用於構建企業/個人知識庫，維基百科就是使用MediaWiki的成功範例)的免費開源擴展，可供用戶存儲、調用數據
Drupal CMS:內容管理模塊，可以讓你快速便捷地以用戶界面創製自己的內容格式、數據字段和表格

想從大量文件中單獨抽取金額來分析？專業的文件管理系統Agorum可以自動從賬單抽取金錢數額，幫你輕鬆解決。

想標記圖片中的文字？Pundit幫你辦到，它同時支持文本和圖片標記。
想在網站加註釋？Annotator.js幫你在任何網頁加註釋，而且可以添加評論、標籤、鏈接、用戶或者更多不同種類的信息，第三方插件還能幫你在難以搞定的PDF、EPUB、視頻、圖片、聲音甚至更多格式的文件上添加標註。

標註了信息，想收到更新提醒？Hypothesis可供用戶訂閱一系列已標註的活動信息，而且能按照自己的興趣獲取通知，而且還能分享評註、鏈接詞典。程序員還可以獲取有限的網站許可，通過第三方應用創建、更新、刪除、搜索注釋。

3. 文本文件挖掘、分析

Text mining tutorial: How to analyze large document collections：文本挖掘教程：如何分析大容量文件集（使用Open Semantic Search來挖掘文本）
Understanding language data: 理解語言數據：可以使用開源NLP（自然語言處理）軟件

統計詞頻有困難？Overview project可以顯示文本最常用的詞和它們的詞群分布
想以圖解的方式查看文本檢索結果？文本搜索工具Jigsaw:（非開源軟件，但可免費下載）可統計文本中最重要的人物、地點、組織等實體的出現頻率，並將他們之間的關係以列表、圖表、時間表和關係圖的形式呈現出來，提高文本分析效率。

如果你覺得不夠，我們還推薦：

Wikipedia list of open source text mining software：維基百科上整合的開源文本挖掘軟件列表
Tapor: 研究專用的文本分析門戶，提供大量文本分析工具，你可以按照類型或標記找到最適合的一款。

4. 圖表和關係網絡分析（SNA）

幫助分析關聯並將其可視化的工具：

關係網分析教程：教你如何用Open Semantic Search可視化關聯
Cytoscape.js: Javascript數據庫，能將關係網、事物分屬和圖表可視化
Semantic Mediawiki:上面介紹過，不僅是數據庫，也是適用於關聯數據、非常靈活的內容管理系統
Detective: 以Python/Django和neo4j圖像數據庫為基礎的內容管理系統，適用於分析關係。

5. 抽取、轉換數據

包括數據整合、抽取、轉換、轉移、ETL（數據提取、轉換和加載）網絡爬蟲採集等等

從文件抽取結構化數據：

Tika content analysis toolkit: 從文檔和文件抽取文本和元數據
CSV Manager:將csv表格輸入Solr為基礎的搜索引擎
想從PDF文件抽取數據、轉化為可編輯的文本？免費軟件Tabula可以直接從PDF文件抽取數據表格，神奇吧？
圖片識別和文本掃描：光學字符識別（OCR）

從圖片識別文本（OCR）

Tesseract: 光學識別軟件，從圖片識別文本

低質量掃描沒法看？Scantailor幫你分頁、矯正文本、添加/刪除頁邊，可以將原始文本傳換成PDF或者DJVU格式的文件，便於打印。

從聲音識別、抽取文本：

CMU Sphinx: 開源聲音識別工具，支持英語、法語、中文、德語、荷蘭語、俄語。該開發商還提供關鍵詞識別和讀音識別等實用工具，可以多多關注。

從網站抽取數據（網絡信息採集/網絡爬蟲）

網絡採集哪家強？簡易 Scrapy幫你忙：你可以依託Scrapy建立自己的網絡爬蟲工具，編寫Python代碼，在Windows,Mac,Linux和BSD系統上都可運行。

6. 輸入、修改、轉換數據

將數據轉換成純文本的超強工具： Tika content analysis toolkit
將數據轉換成其他格式的工具：Talend Open Studio和Kettle

編寫文件和刪除元數據

記者為了保護信息，往往需要編寫文件、清除敏感文件、刪除隱藏在文件或圖片里的元數據，例如軟件的序列號或軟件、用戶名，以下工具可供參考：

PDF Redact Tools: 以最安全的方式刪除PDF中的元數據
MAT: Metadata Anonymisation Toolkit:從不同的文件格式和圖片格式中刪除元數據

7. 統計與分析

包括數據分析、統計、圖表、數據可視化

開源表格程序LibreOffice Calc
上面介紹過的HUE Solr search和Kibana for Elastic Search，除了能檢索數據庫和API，也能完成數據分析
適用於數據分析和計量經濟分析的專業電腦程序：Statistical software
統計和分析的工具大全：Business Intelligence
用R 、 Python或其他編程語言編程分析數據

以上數據分析太複雜？剛入門，想理解數據分析原理？推薦閱讀解釋數據挖掘方法的書Mining of massive datasets（請點擊鏈接，下載免費PDF格式）

8. 通用開源軟件工具包

最強大的通用開源工具包，例如 Debian GNU/Linux或Ubuntu Linux，涵蓋了成千上萬個免費軟件和開源工具、軟件數據庫和編程語言。

運行時，用戶無需移除現有的操作系統：安裝適用於Windows和Mac的Virtual Box，你就可以在現有操作環境下的單獨的窗口運行上述Linux軟件。

發表回復取消回復