使用网站时光机的4个必备技巧

tips techniques using wayback machine

图：Shutterstock

ProPublica 的克雷格·西尔弗曼（Craig Silverman）在这篇文章中分享了如何批量存档网页，比较更改以及查看页面元素何时被存档。

在上一期的《数字调查》（Digital Investigations，一份由西尔弗曼运营的新闻信）为如何充分利用 Wayback Machine（网站时光机）提供了建议。在今天这篇文章中，我又带来了更多使用 Wayback Machine 的使用技巧，这得益于我对 Wayback Machine 负责人马克· 格雷厄姆（Mark Graham）的采访。

他指出了我在上一篇文章中忘记提及的一些功能，以及一个我不知道的功能。我们还讨论了存档社交媒体内容的挑战。

Wayback Machine 由互联网档案馆（Internet Archive）运行，这是一个成立 27 年的非营利组织，致力于为所有知识提供普遍访问。 “我们是一个数字图书馆，”格雷厄姆说。

他说，作为一个图书馆，Wayback Machine 所拥有的是赞助者而不是用户。让我们看看 Wayback Machine 中一些对于记者和研究人员最有用的功能。

1. 查看并比较更改

“更改”功能让你可以比较同一存档页面的不同版本，并看到其中的差异。

“可能有一位新闻记者正在写一篇报道，展示网页上的内容是如何随着时间的推移而变化的，”格雷厄姆说，“在这种情况下，他们需要了解 Wayback Machine 的‘更改’（Changes）功能，你可以比较同一 URL 在两个不同时间点上的内容。”

“更改”功能可以从你在 Wayback Machine 中浏览的任何存档页面的顶部菜单中访问：

wayback machine track website changes

图：Wayback Machine 截图

你也可以直接通过这种URL格式加载它： https://web.archive.org/web/changes/https://www.nytco.com/journalism/

将你想要进行查看的网址放在 https://web.archive.org/web/changes/ 后面，它将显示一个按年归档的网格页面：

wayback machine website archive calendar

图：Wayback Machine 截图

每个阴影方块都对应一个网页快照，颜色图例表示哪些天可能网页内容出现了重大变化。选择两个截图，然后点击页面顶部的“比较”（Compare）按钮，你就会到到一个并排显示的网页快照。

我选择了2023年3月初的一页（左）和2022年1月初的一页（右）。“比较”结果显示，《纽约时报》关于其新闻业务的页面更新了底部菜单选项和文本：

Wayback Machine side-by-side comparison website archive

图：Wayback Machine 截图

2. 使用“关于此捕获”来验证网页元素

Wayback Machine 的基本功能是捕捉和储存网页快照，但实际它的用途更为微妙。

“网络是混乱的，网络在不断变化，”格雷厄姆说。“当我说不断变化时，指的是它也可以是动态的。”

我问他，我们如何确认网页快照显示的正是 Wayback Machine 中列出的日期和时间的页面内容。简单的答案是，是，你可以有这个信心。但归档页面的元素可以从不同的归档材料中获取，每个都有自己的时间戳。这就是 Wayback Machine 的微妙之处。

Wayback Machine 有一个功能，可让您查看网页上不同元素的时间戳。您可以通过点击页面网页快照右上角的“关于此捕获”（About this capture）按钮来访问它：

Wayback Machine About this capture function

Image: Screenshot

以 https://www.nytco.com/journalism/ 为例，我们得到以下结果：

Wayback Machine saved URLS

图：Wayback Machine

尽管该页面在2021年10月20日被存档，但 Wayback Machine 会从较新的网页快照中提取一些元素。上面列出的大部分网页元素都是静态图像，还有几个 JavaScript 和 CSS 文件。格雷厄姆解释说，当你在查看一个网页时，Wayback Machine 会从不同的图像、JavaScript 和 CSS 文件中提取内容以生成页面。

“当我们重现一个页面时，我们实际上是把每个具有自己的URL和自己的存档的页面要求收集起来，然后把它们放在一起，”他说。“其中一个挑战是，这些对象中的每一个可能在不同的时间和日期被存档。”

“当我们‘回放’一个页面时，我们实际上会将收集到的每个网页快照和这个 URL 的实时访问状态放到了一起，”他说。“其中的一个挑战是，每个静态对象可能会在不同的时间被归档。”

例如，网页顶部的主照片（“17XP-PULITZERS2-superJumbo-article.jpg”）是从我加载归档 8 天前抓取的。如果那张照片/文件对你的调查很重要，你可能需要检查当时的归档页面，看看它是否随着时间的推移发生了变化，或者寻找一个更接近目标日期的快照。但只要那个文件在每个时间点都保持不变，就没有问题。

作为一条普遍但并非绝对的规则，典型网页的正文通常不会从另一个页面或文件中提取。因此，它不太可能受到这种动态性的影响。但最安全的做法还是检查“关于此捕获”，并确保你引用的页面捕获中的文本、图片或其他元素与你想要查阅的日期一致。

3. 使用 Google 表格对网址进行批量存档

格雷厄姆提醒我，可以使用 Google 表格上传 URL 进行批量归档。这个过程相当简单。首先创建一个 Google 表格，在其中只有一列，列出你想要存档的 URL。然后在这里将你的 Google 账户连接到你的 archive.org 账户。

图：互联网档案馆

一旦完成，您将看到下图，这个时候点击“归档网址”（Archive URLs）。

图：互联网档案馆

现在，你可以将 Google 表格的链接复制粘贴到相应位置。

图：互联网档案馆

从你将 Google 账户和 archive.org 账户连接起来后，你所捕捉的所有网页快照都将存储在你的 archive.org 账户中，方便你查阅。

他说：“这个功能的出现是因为有一天我的妻子问我，‘马克，我怎样才能轻松地归档一堆 URL？’？”

格雷厄姆与互联网档案馆的工程师们合作，让 Wayback Machine 实现了这个功能。

4. 发送你的反馈和建议

“由于用户的要求、提问或建议，如今的 Wayback Machine 有了许多的功能，”格雷厄姆说。“我们非常感谢这些反馈和建议。现在很多功能都是因为用户的请求才开发的。我们非常欢迎用户的反馈和建议。”

他鼓励人们发送邮件到 info@archive.org 进行反馈和建议。

“我们每天收到数百封电子邮件，我们有一个团队专门负责查阅和回复这些邮件，”格雷厄姆说。“我个人会回复那些无法由这个团队直接处理的邮件。”他也特别鼓励记者们在有问题或请求时主动和他们联系。

额外内容：归档社交媒体信息

Wayback Machine 的资深用户会知道，在上面存档社交媒体内容的难度非常高，这和 Wayback Machine 自身的功能和限制关系不大，而是与像 Meta 这样的公司阻止内容抓取有关。

这是格雷厄姆关于为什么很难从社交媒体存档内容的原因的解释：

就像一些网站比另一些网站更难存档一样，特别是 Facebook 和 Instagram 带来了挑战。他们采取积极措施试图阻止各种自动化脚本，包括爬取内容的脚本。例如，如果你去 Facebook 网站，那里有一个关于网络爬取的部分，他们谈到了他们为防止网络爬取和网络归档所投入的人力资源。

我们尊重互联网，这些不是我们的材料。作为一个图书馆，我们努力使材料普遍可用。因此，我们也在努力使得 Facebook 和 Instagram 的信息可以被存档，而且我们认为我们完全有权存档公开可访问的信息。

一个令人鼓舞的消息是，格雷厄姆表示，Wayback Machine 正在“积极与几家媒体合作”，以改善进社交媒体内容的存档，希望这件事很快得到改善。

本文最初发表在克雷格·西尔弗曼（Craig Silverman）的新闻信《数字调查》（Digital Investigations）上，全球深度报道网获授权翻译转载