不少機構選擇用PDF格式對外公布信息,避免遭篡改,而這樣做卻給記者和數據工作者們帶來了不大不小的麻煩:文字尚且可以複製粘貼,但表格一經粘貼就亂了順序,只能新建一張表。
有沒有一些省時省力的工具呢?
有的。南非資深數據記者Laura Grant根據多年的經驗推薦了一組簡單好用的工具,以及使用PDF文檔的小技巧。
Tabula是個免費的工具,可靠且易用。其官網上稱其“由記者設計,為記者服務。” 難怪深受廣大非計算機專業人士的歡迎。
Tabula的一大好處是允許用戶先上傳一整份PDF文檔,再選擇其中的表格,一次導出單個或多個均可。輸出的格式包括CSV和JASON的TSV,便於之後再用Excel、Google Sheet或Libre Office Calc等軟件打開。
然而對於經過掃描生成的PDF文檔,或者橫向放置的表格,Tabula就無能為力了,但可以用接下來介紹的其它軟件解決。
Cometdocs同樣深受記者歡迎,其中一個原因是美國的調查新聞從業人員可以免費成為其高級會員,而另一個原因就是操作簡便。
對於普通用戶,Cometdocs可以每周免費轉換五份PDF文檔,超過這個數量就要收費,價格是每月9.99美元。如果一次性支付130美元則可以終身使用。
使用的時候,將需要轉換的PDF文檔上傳,點擊“轉換”(convert)鍵,再選擇輸出的格式是Excel或ODS(用於Libre Office軟件),但缺點是不支持CSV格式。
Cometdocs的一大特點是支持光學字符識別(Optical Character Recognition, OCR)技術,可以用於經掃描生成的PDF文檔。由於其未必百分百準確,所以轉換後仍需仔細檢查一遍。
與Tabula一樣,Cometdocs不能識別橫向放置的表格。
PDF的這個官方轉換工具需要付費使用,但24美元一年的價格並不算離譜。
你可以在官方閱讀軟件Adobe Reader上使用該轉換工具,轉換後直接用Excel、Word、PowerPoint或RTF打開新文檔。
與Tabula類似,Export PDF可以快速處理大文檔,但也同樣不適用於掃描件或橫向轉置的表格。
Nitro Pro適合商業人士,功能強大但價格不菲,大約需要160美元。其缺點是只能用於Windows操作系統,將廣大MacBook用戶排除在外。
同樣是PDF官方出品,Windows和Mac均適用,但每月收費15美元,而且最少要訂購一年。
同樣是收費軟件,但可以試用,只要文件小於1.5MB,並提供你的郵箱。轉換後的文件將以電子郵件的形式發送給你。
同樣是需要用郵箱接收文件的網上軟件,但好處是免費使用。
PDF轉換的其它技巧
表格轉置
有些出版物出於空間的考量會把表格“打橫”放,如果是印刷品還可以將其旋轉90度後閱讀,電子版的話就只能轉動你的脖子了。
PDF文檔也會有類似的問題,而且這種橫向放置的表格一般不能被轉換軟件識別。解決的辦法是先轉置PDF中的表格,主要的工具有前面介紹過的Nitro Pro或Acrobat Pro。
Acrobat Pro的用法是:
- 對於一份較大PDF文檔中的若干表格,較好的方法是先打開文檔,使用“Organize Pages”選項提取出含有表格的那幾頁,每一頁生成單獨的文檔。
- 打開包含表格的頁面後,選擇“View”菜單,將表格旋轉至垂直的方向。
- 打開“”Enhance Scans”選項,選擇Recognize Text,確保選中“Save as editable text and images”。這可能要花幾分鐘,並且完成設置後可能表格又轉回去了。
- 回到“View”菜單,將表格再度調整至適當的方向並保存文檔。
- 你可以嘗試將表格轉換成Excel的格式,但經驗表明用Tabula效果更好。
- 再次檢查轉換後的文檔,尤其是看看”8″是否被誤作”6″或”B”。
導出掃描件中的表格
在掃描的PDF文件中,一般軟件會將表格識別為圖片而非文字,所以你首先要做的是將表格用具有光學字符識別(OCR)功能的軟件轉換成文字。
可以選擇的軟件包括前面提到的Cometdocs、Acrobat Pro或Nitro Pro。
對於掃描效果尚可的文檔,Acrobat Pro的“Enhance Scans”工具足以識別其中的文字。有時候,先用截屏的方式將表格保存為一份單獨的文檔可能效果更好,然後再用Tabula轉換成CSV格式。
有密碼鎖的文檔
有些PDF文檔被作者加了密碼鎖,未經授權用戶不能隨意編輯或將其轉換為其它格式,但也不是沒有解決辦法。
蘋果Mac用戶可以使用電腦上的“Preview”功能打開PDF文檔,然後在“Menu”菜單中選擇“Export as PDF”。這樣你就生成了一個新的未經加鎖的PDF文檔,基本上可以進行數據轉換。
編譯/周穗斌
編輯/Ivan Zhai,梁思然
相關閱讀:
Laura Grant是南非網站Media Hack Collective的數據記者及管理合伙人。網站聚集了一群致力於用新媒體講故事的新聞人。Grant的記者生涯超過20年,曾經是南非Mail & Guardian雜誌主管新媒體和數據的副編輯,參與了大量數據新聞及可視化項目。