如何使用“網站時光機”進行在線調查?

Print More

English

互聯網檔案館(The Internet Archive)和它的子項目“網站時光機”(Wayback Machine)是非常重要的調查報道工具。圖: Shutterstock

互聯網檔案館(The Internet Archive)是一個非營利的在線圖書館,它已成立了25周年,使命是“普及所有知識”(universal access to all knowledge)。它最出名的服務是“網站時光機”(Wayback Machine),它每天收到的請求數(包括查閱請求和存檔請求)超過了10億次,我目前也在管理着這項服務。

記者、研究人員、事實核查人員和公眾每天都可以通過多種方式訪問免費使用“網站時光機”。網上已經有不少文章介紹了這項服務,事實上,在 GIJN 的2020年年度調查工具盤點中,不少記者都將“網站時光機”列為他們最喜歡的工具之一。

以下我就簡單介紹一下如何使用“網站時光機”進行調查。

將網址存檔

如果你發布的文章引用了另一篇文章,而那篇文章被作者刪除了或因為網站本身的問題導致無法訪問,你又沒有對這篇文章進行存檔的話,它可能就再也找不到了——可千萬不要讓這種事發生在你的身上。

每天都有許多用戶通過“網站時光機”的“保存頁面”服務存檔上億個網址。任何人都可以提交想要保存的網址,如果你註冊了免費賬戶,還可以要求抓取相關頁面中的“外部鏈接”(outlinks),並通過電子郵件接收抓取情況的報告。

這裡有個小技巧:如果你想批量保存網址,可以將這些網址都放在 Google 表格的 A 列,然後通過這裡提交這份 Google 表格,之後這份表格的 B 列、C 列和 D 列將會自動被填上存檔狀態、存檔後的地址還有這個網址之前是否已經被存檔過。

還有一個存檔網頁的方法,是將相關網址發送郵件到 spn@archive.org,如果你在郵件主題中寫上“capture outlinks”,那麼這個網址的外部鏈接也會被保存。同樣的,在抓取完成後,你會收到一封關於保存情況的電子郵件報告。

最後,對於精通技術的人,“網站時光機”也提供了應用程序接口(API),方便你集成到現有的軟件工作流中,或者是新開發的應用程序中。例如,總部位於舊金山的技術非營利組織米丹(Meedan)就將“網站時光機”的服務整合到了它的“檢查”服務中。米丹是一家通過開發軟件來支持新聞業的非營利組織。

比較不同存檔版本

你是否曾想比較兩個不同網頁存檔之間的差異——也許是為了看看一個公司或個人是如何改變改變網頁上的措辭的?您可以使用“網站時光機”的“查閱改動”(Change)功能來實現這一點。

要使用這項功能,只要在“網頁時光機”的搜索框中輸入任何已存檔的網址,然後選擇“查閱改動”就可以看到不同日期和時間的存檔版本列表,我們會用不同的顏色等級來表示從一個存檔網址到另一個存檔的網址的變化程度。

接下來,你可以選擇任意兩個時間戳版本的網址,它們將會被並排呈現,有差異的文本會被藍色或黃色突出顯示。例如,以下案例就展示了一個英國前首相顧問多米尼克·卡明斯(Dominic Cummings)是如何試圖重寫歷史的。

The Wayback Machine showing how Dominic Cummings made stealth additions (in blue) to a blog post. Image: Screenshot

“網站時光機”的“查閱改動”功能捕捉到了英國前首相顧問多米尼克·卡明斯是如何在他最初的文章(左)上添加秘密內容的(用藍色標記)。

全文檢索

因為存檔網頁內的文本還沒有被索引,所以“網站時光機”還無法提供全文檢索功能,這意味着你需要知道檢索頁面的具體網址才可以搜到相關頁面。但“網站時光機”的工程師正在為特定檔案庫中的網頁進行元數據索引。

使用 API

除了“保存頁面”的 API(應用程序接口),“網站時光機”還有一些其他的API,例如查詢網址是否已經被存檔的 API。你可以在這裡了解更多信息。

像大多數服務一樣,“網站時光機”沒有對API的使用頻率設置正式的上限,但我們可能偶爾會採取節流措施。如果您在使用“網站時光機”時遇到任何問題,都可以發郵件或者在 Twitter 上發私信告訴我們,支持記者的工作是我們的優先事項。

了解存檔網頁的信息

我們意識到,背景和出處等信息對於更完整地理解相關網頁的信息至關重要。因此,我們已經開始為存檔網頁添加處境橫幅(context banner),以幫助用戶更好地理解相關存檔的信息。在存檔網頁已經被刪除,或是它被一個知名研究機構提及的時候,這個橫幅就會很有用。

“網站時光機”的頂部可能會出現外部鏈接的提示,你也可以點擊右上角的“關於此存檔”了解更多存檔頁的信息。

存檔網頁的相關信息對於理解它的十分重要。例如,網頁上一些圖片是否和其他元素在同一時間被抓取?你可以通過點擊每個存檔網頁右上角的“關於此存檔”(About this capture)來了解存檔頁的相關信息。

我們一直都很重視存檔網頁的完整性以及存檔頁信息的透明度,這也增強了人們對“網站時光機”的信心——目前,世界各地的多個法院都接受“網站時光機”的信息作為證據

瀏覽器擴展

我們有適用於 SafariFirefox Chrome 的瀏覽器擴展,以及適用於 iOSAndroid 的應用程序。我們也與搜索引擎 Brave 合作,在他們的瀏覽器中建立了 404(和其他錯誤條件)檢測功能。

除了對大部分公共網絡資源進行存檔之外,互聯網檔案館還保存了其他資料,包括通過互聯網學術檔案(Internet Archive Scholar)服務提供的2500多萬份學術論文;近3000萬本可以預覽、借閱或下載的電子書和文件;數百萬小時的電視新聞存檔,並且這些新聞的字幕已經被索引,可以進行全文檢索。

如果你想更多了解“網站時光機”,非常歡迎你在 Twitter 上@internetarchive@waybackmachine,以及閱讀我們的官方博客


Mark Graham thumbnail imageMark Graham 已經管理了五年多“網站時光機”。在此之前,他是NBC的高級副總裁,負責數字新聞相關業務。Graham 還幫助運營了第一個連接美國與前蘇聯的電子郵件服務,並協助建立過一家針對女性的在線服務機構——iVillage。

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註