乾貨 | 數據收集和處理工具一覽

Print More

進入大數據時代,調查報道愈加成為信息戰。從哪裡收集有效數據?如何抽取、篩選、整合、分類大量瑣碎的信息?如何分享、存儲數據,並實現隨取隨用?深度君整理了一張數據收集和處理工具清單,分為八大類,方便實用,各有所長,供大家選擇。


1.全文本搜索和挖掘的搜索引擎:

包括:搜索方法、技術:全文本搜索,信息檢索桌面搜索企業搜索分面搜索

開源搜索工具:

1 Open Semantic Search

搜素數據庫和API

  • 如果你想編程,你可以試用以下強大的搜索引擎:SolrElastic Search,支持索引和API搜索,更多全文搜索、實時檢索、數據分析、多格式數據讀取(JSON, SML, CSV或HTTP)等強大功能等你開發。

2 Elastic

2.數據庫、數字文檔、數據管理系統、文件管理系統和內容管理系統:

  • 還在為不同格式的腳註、尾注、文中引用和文獻參考大費腦筋嗎?資源整理神器Zotero的標註和引用功能幫你解決難題。它可以在Word,Open Office添加引用,在Google doc和電子郵件中插入文獻參考,或者為數據庫添加標記。

3 Zoerto

  • LibreOffice Calc:開源表格程序
  • Document cloud:文檔管理系統,管理紙質文件掃描版本或者PDF 格式文件
  • Semantic MediaWiki: MediaWiki(著名開源引擎,可用於構建企業/個人知識庫,維基百科就是使用MediaWiki的成功範例)的免費開源擴展,可供用戶存儲、調用數據
  • Drupal CMS:內容管理模塊,可以讓你快速便捷地以用戶界面創製自己的內容格式、數據字段和表格

4 Drupal

  • 想從大量文件中單獨抽取金額來分析?專業的文件管理系統Agorum可以自動從賬單抽取金錢數額,幫你輕鬆解決。
  • 想標記圖片中的文字?Pundit幫你辦到,它同時支持文本和圖片標記。
  • 想在網站加註釋?Annotator.js幫你在任何網頁加註釋,而且可以添加評論、標籤、鏈接、用戶或者更多不同種類的信息,第三方插件還能幫你在難以搞定的PDF、EPUB、視頻、圖片、聲音甚至更多格式的文件上添加標註。

5 Annotator

  • 標註了信息,想收到更新提醒?Hypothesis可供用戶訂閱一系列已標註的活動信息,而且能按照自己的興趣獲取通知,而且還能分享評註、鏈接詞典。程序員還可以獲取有限的網站許可,通過第三方應用創建、更新、刪除、搜索注釋。

3. 文本文件挖掘、分析

6 NLP

  • 統計詞頻有困難?Overview project可以顯示文本最常用的詞和它們的詞群分布
  • 7 Jigsaw想以圖解的方式查看文本檢索結果?文本搜索工具Jigsaw:(非開源軟件,但可免費下載)可統計文本中最重要的人物、地點、組織等實體的出現頻率,並將他們之間的關係以列表、圖表、時間表和關係圖的形式呈現出來,提高文本分析效率。

如果你覺得不夠,我們還推薦:

  • Wikipedia list of open source text mining software:維基百科上整合的開源文本挖掘軟件列表
  • 7 TAPOR-logoTapor: 研究專用的文本分析門戶,提供大量文本分析工具,你可以按照類型或標記找到最適合的一款。

4. 圖表和關係網絡分析(SNA)

幫助分析關聯並將其可視化的工具:

  • 關係網分析教程:教你如何用Open Semantic Search可視化關聯
  • 8 Gephi
  • Cytoscape.js: Javascript數據庫,能將關係網、事物分屬和圖表可視化
  • Semantic Mediawiki:上面介紹過,不僅是數據庫,也是適用於關聯數據、非常靈活的內容管理系統
  • Detective: 以Python/Django和neo4j圖像數據庫為基礎的內容管理系統,適用於分析關係。

5. 抽取、轉換數據

包括數據整合、抽取、轉換、轉移、ETL(數據提取、轉換和加載)網絡爬蟲採集等等

從文件抽取結構化數據:

從圖片識別文本(OCR

  • Tesseract: 光學識別軟件,從圖片識別文本

FireShot Capture 411 -11 tesseract-ocr

  • 低質量掃描沒法看?Scantailor幫你分頁、矯正文本、添加/刪除頁邊,可以將原始文本傳換成PDF或者DJVU格式的文件,便於打印。

從聲音識別、抽取文本:

  • CMU Sphinx: 開源聲音識別工具,支持英語、法語、中文、德語、荷蘭語、俄語。該開發商還提供關鍵詞識別和讀音識別等實用工具,可以多多關注。

12 CMU Sphinx

從網站抽取數據(網絡信息採集/網絡爬蟲)

  • 網絡採集哪家強?簡易 Scrapy幫你忙:你可以依託Scrapy建立自己的網絡爬蟲工具,編寫Python代碼,在Windows,Mac,Linux和BSD系統上都可運行。

FireShot Capture 404 - Scrapy I A Fast and Powerful Scraping and Web Crawling _ - http___scrapy.org_

6. 輸入、修改、轉換數據

編寫文件和刪除元數據

14 PDF Redact Tools記者為了保護信息,往往需要編寫文件、清除敏感文件、刪除隱藏在文件或圖片里的元數據,例如軟件的序列號或軟件、用戶名,以下工具可供參考:

7. 統計與分析

包括數據分析統計、圖表、數據可視化

18 Python

  • 以上數據分析太複雜?剛入門,想理解數據分析原理?推薦閱讀解釋數據挖掘方法的書Mining of massive datasets(請點擊鏈接,下載免費PDF格式)

8. 通用開源軟件工具包

19 Debian最強大的通用開源工具包,例如 Debian GNU/Linux或Ubuntu Linux,涵蓋了成千上萬個免費軟件和開源工具、軟件數據庫和編程語言。

運行時,用戶無需移除現有的操作系統:安裝適用於Windows和Mac的Virtual Box,你就可以在現有操作環境下的單獨的窗口運行上述Linux軟件。

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註