互联网档案馆(The Internet Archive)是一个非营利的在线图书馆,它已成立了25周年,使命是“普及所有知识”(universal access to all knowledge)。它最出名的服务是“网站时光机”(Wayback Machine),它每天收到的请求数(包括查阅请求和存档请求)超过了10亿次,我目前也在管理着这项服务。
记者、研究人员、事实核查人员和公众每天都可以通过多种方式访问免费使用“网站时光机”。网上已经有不少文章介绍了这项服务,事实上,在 GIJN 的2020年年度调查工具盘点中,不少记者都将“网站时光机”列为他们最喜欢的工具之一。
以下我就简单介绍一下如何使用“网站时光机”进行调查。
将网址存档
如果你发布的文章引用了另一篇文章,而那篇文章被作者删除了或因为网站本身的问题导致无法访问,你又没有对这篇文章进行存档的话,它可能就再也找不到了——可千万不要让这种事发生在你的身上。
每天都有许多用户通过“网站时光机”的“保存页面”服务存档上亿个网址。任何人都可以提交想要保存的网址,如果你注册了免费账户,还可以要求抓取相关页面中的“外部链接”(outlinks),并通过电子邮件接收抓取情况的报告。
这里有个小技巧:如果你想批量保存网址,可以将这些网址都放在 Google 表格的 A 列,然后通过这里提交这份 Google 表格,之后这份表格的 B 列、C 列和 D 列将会自动被填上存档状态、存档后的地址还有这个网址之前是否已经被存档过。
还有一个存档网页的方法,是将相关网址发送邮件到 spn@archive.org,如果你在邮件主题中写上“capture outlinks”,那么这个网址的外部链接也会被保存。同样的,在抓取完成后,你会收到一封关于保存情况的电子邮件报告。
最后,对于精通技术的人,“网站时光机”也提供了应用程序接口(API),方便你集成到现有的软件工作流中,或者是新开发的应用程序中。例如,总部位于旧金山的技术非营利组织米丹(Meedan)就将“网站时光机”的服务整合到了它的“检查”服务中。米丹是一家通过开发软件来支持新闻业的非营利组织。
比较不同存档版本
你是否曾想比较两个不同网页存档之间的差异——也许是为了看看一个公司或个人是如何改变改变网页上的措辞的?您可以使用“网站时光机”的“查阅改动”(Change)功能来实现这一点。
要使用这项功能,只要在“网页时光机”的搜索框中输入任何已存档的网址,然后选择“查阅改动”就可以看到不同日期和时间的存档版本列表,我们会用不同的颜色等级来表示从一个存档网址到另一个存档的网址的变化程度。
接下来,你可以选择任意两个时间戳版本的网址,它们将会被并排呈现,有差异的文本会被蓝色或黄色突出显示。例如,以下案例就展示了一个英国前首相顾问多米尼克·卡明斯(Dominic Cummings)是如何试图重写历史的。
全文检索
因为存档网页内的文本还没有被索引,所以“网站时光机”还无法提供全文检索功能,这意味着你需要知道检索页面的具体网址才可以搜到相关页面。但“网站时光机”的工程师正在为特定档案库中的网页进行元数据索引。
使用 API
除了“保存页面”的 API(应用程序接口),“网站时光机”还有一些其他的API,例如查询网址是否已经被存档的 API。你可以在这里了解更多信息。
像大多数服务一样,“网站时光机”没有对API的使用频率设置正式的上限,但我们可能偶尔会采取节流措施。如果您在使用“网站时光机”时遇到任何问题,都可以发邮件或者在 Twitter 上发私信告诉我们,支持记者的工作是我们的优先事项。
了解存档网页的信息
我们意识到,背景和出处等信息对于更完整地理解相关网页的信息至关重要。因此,我们已经开始为存档网页添加处境横幅(context banner),以帮助用户更好地理解相关存档的信息。在存档网页已经被删除,或是它被一个知名研究机构提及的时候,这个横幅就会很有用。
存档网页的相关信息对于理解它的十分重要。例如,网页上一些图片是否和其他元素在同一时间被抓取?你可以通过点击每个存档网页右上角的“关于此存档”(About this capture)来了解存档页的相关信息。
我们一直都很重视存档网页的完整性以及存档页信息的透明度,这也增强了人们对“网站时光机”的信心——目前,世界各地的多个法院都接受“网站时光机”的信息作为证据。
浏览器扩展
我们有适用于 Safari、Firefox 和 Chrome 的浏览器扩展,以及适用于 iOS 和 Android 的应用程序。我们也与搜索引擎 Brave 合作,在他们的浏览器中建立了 404(和其他错误条件)检测功能。
除了对大部分公共网络资源进行存档之外,互联网档案馆还保存了其他资料,包括通过互联网学术档案(Internet Archive Scholar)服务提供的2500多万份学术论文;近3000万本可以预览、借阅或下载的电子书和文件;数百万小时的电视新闻存档,并且这些新闻的字幕已经被索引,可以进行全文检索。
如果你想更多了解“网站时光机”,非常欢迎你在 Twitter 上@internetarchive 或@waybackmachine,以及阅读我们的官方博客。
Mark Graham 已经管理了五年多“网站时光机”。在此之前,他是NBC的高级副总裁,负责数字新闻相关业务。Graham 还帮助运营了第一个连接美国与前苏联的电子邮件服务,并协助建立过一家针对女性的在线服务机构——iVillage。