從PDF中提取數據表

Print More

你一定有過類似經歷:試圖從PDF中提取數據表,發現command C 加 command V 只帶來一堆胡亂排列、不知所云的的數據和心中飛馳而過的千萬隻草泥馬。

來自調查報道媒體公司Kaas & Mulvad的資深調查記者Nils Mulvad在大會上推薦下列工具,用於從PDF中提取數據表。他提醒到:PDF很難搞,不要指望一個工具就能搞定所有表格,多知道幾個總沒壞處。

cometdocs

在線轉換,提供免費和收費服務。大多數時候很好用,但你最好註冊,上傳你的PDF文件,轉換後下載。免費賬戶每周限制使用5次,收費賬戶無限制,30天/10美元,花130美元就可終身使用。

 

Able2extract

7天免費試用。MacOS, Window和Linux適用,30天使用版35美元,完整版100美元。

 

PDF2XL

7天免費試用。Window適用。

 

Xpdf

Xpdf是一個開源項目,可將PDF文件轉換text文件,但之後需要再將text文件轉換為電子表格。Xpdf必須在命令行處理。

 

Tabula 

Tabula由一群記者和開發人員共同創建,是一個開源免費程序,可將PDF中的表格轉換成CSV文件。目前尚不支持多頁文件。適用於任何平台,不過目前還不太穩定。

 

上述工具用於提取數據表。另一個方法是使用OCR工具。OCR能夠“讀取”PDF,甚至還能讀取jpg, tiff和png格式的圖片。它可提取打字機或電腦打印出來的內容,並將它們轉換成機器編碼文本或計算機可讀文本。基本運行無礙,但質量不一。

維基百科創建了一個專門頁面,對比各光學字符識別軟件的優劣。

 

如果你不需要轉換大文件,這個免費的OCR工具用得還算順手.

 

ABBYY FineReader很不錯,不妨試試30天試用版——最多可轉換100頁。購買完整版要129美元。

 

其他工具

Adobe Acrobat XI

XI Reader 

你可以在這個免費閱讀器上打開並閱讀PDF文件。你不能進行修改,但可以從PDF文件里複製文本(除非它們是被掃描的)並粘貼在電子表格里。在鍵盤上按下Alt-key,可在數據區通過鼠標選中單列,並同時複製多列。

 

Adobe Acrobat XI Standard (or Pro)

完整版提供多種功能,有一個特別適合數據記者:當你在圖上選中一張表格並右擊,可直接以電子表格形式打開並存儲。通常情況下出來的成果都很接近你想要的。它還可以合併或拆分PDF文件。

 

如果你只需要拆分文件或提取其中一頁,可以使用免費工具ilovepdfPDF mergy

 

解鎖PDF的工具

對付一些加了密的PDF文件。可以下載試用版(只能解鎖兩頁),購買完整版也不貴——9美元。

 

 

 

Print Friendly, PDF & Email

1 thoughts on “從PDF中提取數據表

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註