从网页、图像或扫描件中快速提取数据的三个方法

图: Shutterstock

欢迎阅读 GIJN 工具箱，在这个栏目中我们会介绍调查记者最喜欢使用的工具和一些技巧。在这篇文章中，我们将介绍从文件中提取数据的三种免费易用的解决方案，这些方法在不久前举行的 IRE22 上获得了参会记者的一致好评。

当记者获得调查所需的数据时，往往面临第二个问题，就是如何选择和提取这些数据，以便将它们放入电子表格中进行处理。对于许多小型编辑部来说，人工输入、高级编程和昂贵的商业 OCR（光学字符识别）都是不太现实的选项。

更重要的是，在IRE22上，几位资深记者指出，他们看到以非结构化的“死格式”（如扫描文件）发布的公共文件数量增加，一些政府机构故意使用这样的格式来增加记者报道的负担。

面对这样的挑战，许多机构都会指导记者通过检查网页获得他们想要的数据，但这需要进行很多次复制和粘贴，并手动点击许多标签页，才能收集到较为完整的数据。

“我提交了大量的公共记录请求，但能以我要求的格式获得的文件或数据的情况异常罕见，”《今日美国》的调查记者 Kenny Jacoby 说，他在会上介绍了几个PDF工具。“有时，给你文件的机构似乎故意要让你的生活变得更困难——他们会把PDF中的文字剥离出来，或者在发送之前把文件做成扫描件，或者数据以非结构化的格式储存——例如没有列和行。这些障碍真的会很拖累我们，所以拥有处理这些障碍的工具非常重要。”

Google Pinpoint

2020年，GIJN 是最早公布 Google 记者工作室（Google Journalist Studio）新推出的人工智能文档解析工具的机构之一，它的名字叫做 Pinpoint，这是一个带有高级 OCR 功能的文档搜索引擎，你可以通过它快速搜索大量的文件和图像。Jacoby 说，Pinpoint 已经发展成为一个免费的数字工具，便于专业记者使用，这要部分归功于开发团队中的调查记者们。

Pinpoint 目前包括了以下功能：

如果你搜索一个单一关键词，比如“教师”，它不仅会在你上传的研究文件中找到这个词，而且还会突出与此相关的词，比如“老师”、“校园”、“教授”等；它还能找到搜索词的时态变化；目前它支持七种语言，包括葡萄牙语、西班牙语、法语和波兰语；并且，你能用减号排除不需要的关键词。
你可以批量上传 PDF 扫描件，它可以迅速将它们转换为“活”的，可搜索、可进行复制粘贴操作的文本文件，它甚至还能识别竖排的文字。
它不仅可以识别和翻译图像中的标牌或涂鸦，还可以复制图像背景中牌匾或告示牌上的长段小字。
Jacoby 说，Pinpoint 的音频和视频转录功能也非常先进，以至于他使用免费的 Pinpoint，而不是像 Trint 或 Otter 这样的付费转录工具。他说，Pinpoint 虽然不像 Trint、Otter 那样可以识别不同的说话人，但它可以识别对话中的中断和声音拐点，你只要点击文本中的某一点，就可以听到那个部分的声音。

Jacoby 说，现在免费版的 Pinpoint 功能就已经很足够，而且还可以向 Google 申请大型项目的额外存储空间。

“你需要得到批准才能使用它，但是当我和我的妻子——她也是一名记者，在注册的时候，我们几乎立刻就得到了批准，”他指出：“你可能需要一个工作电子邮件地址，但要获得使用权限并不难，那里的团队反应非常迅速。”

缺点是什么？Pinpoint 是一项完全在线的服务。“这就意味着你必须联网才能使用，而且你需要把文件上传到 Google 的服务器上，如果 Google 受到了法庭的传唤，你的文件可能被翻出来；另外，它不允许你下载 OCR 文件的副本，它们只保存在 Pinpoint 上，你只能把这些文本复制出来，但它却有着可能业内最好的 OCR。”

参加 IRE22 的记者们惊奇地发现，免费的 Pinpoint 的光学字符识别（OCR）功能强大到足以阅读和转照片中蓝色传记牌上的文字那样小的文本。图: Kenny Jacoby

从网页提取数据

正如 ProPublica 的 Craig Silverman 最近为 GIJN 所展示的那样：任何网站背后的源代码都为调查记者提供了大量的挖掘空间。虽然网页源代码让非编程人员望而生畏，但其实除了 Control+F 或 Command+F 外，你不需要任何技能来找到你需要的资源。

在 IRE22 上，自由撰稿人 Samantha Sunne 展示了如何透过网页源代码来抓取网站上的长表单或特定数据项，并在几秒钟内将所有数据以你需要的格式填充到电子表格中。这个方法涉及到一个公式，用于指示 Google Sheet 从其左上角第一个方框中填入网页中提取所需要的源代码。

事实上，你根本不需要看任何代码，就可以从任意一个网站上提取一个格式良好的数据表。只要遵循这些步骤就可以了：

要从某个网页中导入一个单一数据表，你只需在 Google Sheet 中键入以下公式： =IMPORTHTML(“URL”, “table”) 如果这些数据被格式化为一个列表，尝试用 “list “代替 “table如果你想要，例如页面上的第二个列表，尝试在逗号和空格后添加数字2，像这样： =IMPORTHTML(“URL”, “list”, 2)

当我们尝试用这个方法将美国联邦存款保险公司网站上564家倒闭银行的资料导入表格时，整个过程只花了不到15秒。记得要准确使用公式所需的标点符号，包括URL后面的逗号，以及括号中两个项目周围的引号。值得一提的是，网站数据的更新也会自动出现在 Google Sheet 中，因此你不必在调查过程中不断翻查网页，除非你禁用了实时更新的功能。

尽管如此，Sunne 强调，对于记者来说，某种程度上熟悉 html 语言也是很重要的，这样就可以了解计算机是如何包装在页面上看到的数据，以便更容易地处理格式不完备的数据，以及更深入地挖掘更高级的公式。

要查看网页源代码，只需右击网站上的任何空白处，然后点击“显示网页源代码”就可以。Sunne 说，一般你在网页看到的任何文字都会出现在网页源代码中，所以你可以简单地用 Ctrl+F 在网页源代码中查找网页内的文字，看看它的前后被标记了什么样的标签，之后再在公式中加入这些标签试试。

“虽然它很有用，但 ImportHTML 公式只能拉入表格和列表，但 ImportXML 公式则可以拉入任何 html 元素，”Sunne 说：“它们看起来非常相似。”下面是一则演示。

要导入网页上的特定数据元素，比如某一行文字，或只导入粗体字、标题，可以尝试用这样的公式（以数据的二级标题为例）：=IMPORTXML(“URL”, “//h2”)，或是这样（表格中的行）。=IMPORTXML(“URL”, “//table/tr”)

你可以在 html 常用词典中找到许多常用的 html 元素，如”//h2″（二级标题）和”/tr”（表格中的行），。但 Sunne 建议记者只需注意关注元素周围的标签，并找出关键的专业术语标签，以帮助完善他们的下一次数据导入。为了实践，请尝试在大型维基百科网站上使用这两种数据搜刮技术，这些网站通常有几个数据列表和表格。

用 Tesseract 和 ImageMagick 安全抓取离线数据

《今日美国》（USA Today）的 Kenny Jacoby 说，如果输入数据的质量足够好，一个名为 Tesseract 的开源OCR引擎为敏感文件以及庞大的档案提供了一个很好的提取解决方案。值得注意的是，它能识别100多种语言，包括希伯来语或阿拉伯语的从右到左的书写方式。

Tesseract 将没有文本层的图像转换为可选择和可搜索的 PDF，Jacoby说，这个工具在将大批量的“平面”文件转换为可复制粘贴的文本方面特别强大，但在此之前，记者必须先将 PDF 文件转换为高分辨率的图像，而他推荐了开源的 ImageMagick 工具，然后，再将这些图像传入 Tesseract 以获得转换过的数据。

“它的OCR没有 Pinpoint 那么好，但也相当不错，”Jacoby 说。“但它一个很大的好处是它是离线的——你可以在本地、在任何终端上完成所有事情，所以它很适合敏感资料。而且它的批量转换功能真的很好用。”

他补充说：“你可能不得不提高图像的质量或对比度，但有了 ImageMagick，你可以方便提升图像的质量。”

此外，Jacoby 还推荐了《华尔街日报》调查记者 Chad Day 关于 Tesseract 和 ImageMagick 工具的详细指南，这份指南可以在 Github 上找到。

尽管 Tesseract 解决方案确实需要一些“中级”的编程技能，但 Jacoby 强调说，它可以是一个一次性的方案——如果你懂得使用命令行，就可以事先设置好程序，并为记者提供两行简短的代码，然后他们就可以在每次数据提取中都插入这些代码。为了提取以 PDF 格式储存的表格，Jacoby 还推荐了 Tabula 这个应用，它一个是由 OpenNews 和 ProPublica 的记者们创建的开源工具。他解释说：“它基本上是把数据表从 PDF 中提取出来，并把它们汇入到电子表格中。”

Tabula 还允许你在的表格周围简单地画一个框，来提取想要的数据，而且它还可以自动检测文件中的表格——包括那些没有边框的表格。而且 Tabula 对 Tesseract 创建的文本文件转换效果很好。Jacoby 还强调，Tabula 也是离线的，所以它也可以很好地保护隐私。

Rowan Philp 是全球深度报道网的记者。他曾是南非《星期天时报》（Sunday Times）的首席记者。作为一名驻外特派员，他报道过全球20多国的新闻、政治、贪腐和冲突事件

全球深度报道网 -

工具箱