不少机构选择用PDF格式对外公布信息,避免遭篡改,而这样做却给记者和数据工作者们带来了不大不小的麻烦:文字尚且可以复制粘贴,但表格一经粘贴就乱了顺序,只能新建一张表。
有没有一些省时省力的工具呢?
有的。南非资深数据记者Laura Grant根据多年的经验推荐了一组简单好用的工具,以及使用PDF文档的小技巧。
Tabula是个免费的工具,可靠且易用。其官网上称其“由记者设计,为记者服务。” 难怪深受广大非计算机专业人士的欢迎。
Tabula的一大好处是允许用户先上传一整份PDF文档,再选择其中的表格,一次导出单个或多个均可。输出的格式包括CSV和JASON的TSV,便于之后再用Excel、Google Sheet或Libre Office Calc等软件打开。
然而对于经过扫描生成的PDF文档,或者横向放置的表格,Tabula就无能为力了,但可以用接下來介绍的其它软件解决。
Cometdocs同样深受记者欢迎,其中一个原因是美国的调查新闻从业人员可以免费成为其高级会员,而另一个原因就是操作简便。
对于普通用户,Cometdocs可以每周免费转换五份PDF文档,超过这个数量就要收费,价格是每月9.99美元。如果一次性支付130美元则可以终身使用。
使用的时候,将需要转换的PDF文档上传,点击“转换”(convert)键,再选择输出的格式是Excel或ODS(用于Libre Office软件),但缺点是不支持CSV格式。
Cometdocs的一大特点是支持光学字符识别(Optical Character Recognition, OCR)技术,可以用于经扫描生成的PDF文档。由于其未必百分百准确,所以转换后仍需仔细检查一遍。
与Tabula一样,Cometdocs不能识别横向放置的表格。
PDF的这个官方转换工具需要付费使用,但24美元一年的价格并不算离谱。
你可以在官方阅读软件Adobe Reader上使用该转换工具,转换后直接用Excel、Word、PowerPoint或RTF打开新文档。
与Tabula类似,Export PDF可以快速处理大文档,但也同样不适用于扫描件或横向转置的表格。
Nitro Pro适合商业人士,功能强大但价格不菲,大约需要160美元。其缺点是只能用于Windows操作系统,将广大MacBook用户排除在外。
同样是PDF官方出品,Windows和Mac均适用,但每月收费15美元,而且最少要订购一年。
同样是收费软件,但可以试用,只要文件小于1.5MB,并提供你的邮箱。转换后的文件将以电子邮件的形式发送给你。
同样是需要用邮箱接收文件的网上软件,但好处是免费使用。
PDF转换的其它技巧
表格转置
有些出版物出于空间的考量会把表格“打横”放,如果是印刷品还可以将其旋转90度后阅读,电子版的话就只能转动你的脖子了。
PDF文档也会有类似的问题,而且这种横向放置的表格一般不能被转换软件识别。解决的办法是先转置PDF中的表格,主要的工具有前面介绍过的Nitro Pro或Acrobat Pro。
Acrobat Pro的用法是:
- 对于一份较大PDF文档中的若干表格,较好的方法是先打开文档,使用“Organize Pages”选项提取出含有表格的那几页,每一页生成单独的文档。
- 打开包含表格的页面后,选择“View”菜单,将表格旋转至垂直的方向。
- 打开“”Enhance Scans”选项,选择Recognize Text,确保选中“Save as editable text and images”。这可能要花几分钟,并且完成设置后可能表格又转回去了。
- 回到“View”菜单,将表格再度调整至适当的方向并保存文档。
- 你可以尝试将表格转换成Excel的格式,但经验表明用Tabula效果更好。
- 再次检查转换后的文档,尤其是看看”8″是否被误作”6″或”B”。
导出扫描件中的表格
在扫描的PDF文件中,一般软件会将表格识别为图片而非文字,所以你首先要做的是将表格用具有光学字符识别(OCR)功能的软件转换成文字。
可以选择的软件包括前面提到的Cometdocs、Acrobat Pro或Nitro Pro。
对于扫描效果尚可的文档,Acrobat Pro的“Enhance Scans”工具足以识别其中的文字。有时候,先用截屏的方式将表格保存为一份单独的文档可能效果更好,然后再用Tabula转换成CSV格式。
有密码锁的文档
有些PDF文档被作者加了密码锁,未经授权用户不能随意编辑或将其转换为其它格式,但也不是没有解决办法。
苹果Mac用户可以使用电脑上的“Preview”功能打开PDF文档,然后在“Menu”菜单中选择“Export as PDF”。这样你就生成了一个新的未经加锁的PDF文档,基本上可以进行数据转换。
编译/周穗斌
编辑/Ivan Zhai,梁思然
相关阅读:
Laura Grant是南非网站Media Hack Collective的数据记者及管理合伙人。网站聚集了一群致力于用新媒体讲故事的新闻人。Grant的记者生涯超过20年,曾经是南非Mail & Guardian杂志主管新媒体和数据的副编辑,参与了大量数据新闻及可视化项目。