你一定有過類似經歷:試圖從PDF中提取數據表,發現command C 加 command V 只帶來一堆胡亂排列、不知所云的的數據和心中飛馳而過的千萬隻草泥馬。
來自調查報道媒體公司Kaas & Mulvad的資深調查記者Nils Mulvad在大會上推薦下列工具,用於從PDF中提取數據表。他提醒到:PDF很難搞,不要指望一個工具就能搞定所有表格,多知道幾個總沒壞處。
在線轉換,提供免費和收費服務。大多數時候很好用,但你最好註冊,上傳你的PDF文件,轉換後下載。免費賬戶每周限制使用5次,收費賬戶無限制,30天/10美元,花130美元就可終身使用。
7天免費試用。MacOS, Window和Linux適用,30天使用版35美元,完整版100美元。
7天免費試用。Window適用。
Xpdf是一個開源項目,可將PDF文件轉換text文件,但之後需要再將text文件轉換為電子表格。Xpdf必須在命令行處理。
Tabula由一群記者和開發人員共同創建,是一個開源免費程序,可將PDF中的表格轉換成CSV文件。目前尚不支持多頁文件。適用於任何平台,不過目前還不太穩定。
上述工具用於提取數據表。另一個方法是使用OCR工具。OCR能夠“讀取”PDF,甚至還能讀取jpg, tiff和png格式的圖片。它可提取打字機或電腦打印出來的內容,並將它們轉換成機器編碼文本或計算機可讀文本。基本運行無礙,但質量不一。
維基百科創建了一個專門頁面,對比各光學字符識別軟件的優劣。
如果你不需要轉換大文件,這個免費的OCR工具用得還算順手.
ABBYY FineReader很不錯,不妨試試30天試用版——最多可轉換100頁。購買完整版要129美元。
其他工具
Adobe Acrobat XI
你可以在這個免費閱讀器上打開並閱讀PDF文件。你不能進行修改,但可以從PDF文件里複製文本(除非它們是被掃描的)並粘貼在電子表格里。在鍵盤上按下Alt-key,可在數據區通過鼠標選中單列,並同時複製多列。
Adobe Acrobat XI Standard (or Pro)
完整版提供多種功能,有一個特別適合數據記者:當你在圖上選中一張表格並右擊,可直接以電子表格形式打開並存儲。通常情況下出來的成果都很接近你想要的。它還可以合併或拆分PDF文件。
如果你只需要拆分文件或提取其中一頁,可以使用免費工具ilovepdf或PDF mergy
解鎖PDF的工具
對付一些加了密的PDF文件。可以下載試用版(只能解鎖兩頁),購買完整版也不貴——9美元。
I want to send you an award for most helpful inrtneet writer.