使用網站時光機的4個必備技巧

tips techniques using wayback machine

圖：Shutterstock

ProPublica 的克雷格·西爾弗曼（Craig Silverman）在這篇文章中分享了如何批量存檔網頁，比較更改以及查看頁面元素何時被存檔。

在上一期的《數字調查》（Digital Investigations，一份由西爾弗曼運營的新聞信）為如何充分利用 Wayback Machine（網站時光機）提供了建議。在今天這篇文章中，我又帶來了更多使用 Wayback Machine 的使用技巧，這得益於我對 Wayback Machine 負責人馬克· 格雷厄姆（Mark Graham）的採訪。

他指出了我在上一篇文章中忘記提及的一些功能，以及一個我不知道的功能。我們還討論了存檔社交媒體內容的挑戰。

Wayback Machine 由互聯網檔案館（Internet Archive）運行，這是一個成立 27 年的非營利組織，致力於為所有知識提供普遍訪問。 “我們是一個數字圖書館，”格雷厄姆說。

他說，作為一個圖書館，Wayback Machine 所擁有的是贊助者而不是用戶。讓我們看看 Wayback Machine 中一些對於記者和研究人員最有用的功能。

1. 查看並比較更改

“更改”功能讓你可以比較同一存檔頁面的不同版本，並看到其中的差異。

“可能有一位新聞記者正在寫一篇報道，展示網頁上的內容是如何隨着時間的推移而變化的，”格雷厄姆說，“在這種情況下，他們需要了解 Wayback Machine 的‘更改’（Changes）功能，你可以比較同一 URL 在兩個不同時間點上的內容。”

“更改”功能可以從你在 Wayback Machine 中瀏覽的任何存檔頁面的頂部菜單中訪問：

wayback machine track website changes

圖：Wayback Machine 截圖

你也可以直接通過這種URL格式加載它： https://web.archive.org/web/changes/https://www.nytco.com/journalism/

將你想要進行查看的網址放在 https://web.archive.org/web/changes/ 後面，它將顯示一個按年歸檔的網格頁面：

wayback machine website archive calendar

圖：Wayback Machine 截圖

每個陰影方塊都對應一個網頁快照，顏色圖例表示哪些天可能網頁內容出現了重大變化。選擇兩個截圖，然後點擊頁面頂部的“比較”（Compare）按鈕，你就會到到一個並排顯示的網頁快照。

我選擇了2023年3月初的一頁（左）和2022年1月初的一頁（右）。“比較”結果顯示，《紐約時報》關於其新聞業務的頁面更新了底部菜單選項和文本：

Wayback Machine side-by-side comparison website archive

圖：Wayback Machine 截圖

2. 使用“關於此捕獲”來驗證網頁元素

Wayback Machine 的基本功能是捕捉和儲存網頁快照，但實際它的用途更為微妙。

“網絡是混亂的，網絡在不斷變化，”格雷厄姆說。“當我說不斷變化時，指的是它也可以是動態的。”

我問他，我們如何確認網頁快照顯示的正是 Wayback Machine 中列出的日期和時間的頁面內容。簡單的答案是，是，你可以有這個信心。但歸檔頁面的元素可以從不同的歸檔材料中獲取，每個都有自己的時間戳。這就是 Wayback Machine 的微妙之處。

Wayback Machine 有一個功能，可讓您查看網頁上不同元素的時間戳。您可以通過點擊頁面網頁快照右上角的“關於此捕獲”（About this capture）按鈕來訪問它：

Wayback Machine About this capture function

Image: Screenshot

以 https://www.nytco.com/journalism/ 為例，我們得到以下結果：

Wayback Machine saved URLS

圖：Wayback Machine

儘管該頁面在2021年10月20日被存檔，但 Wayback Machine 會從較新的網頁快照中提取一些元素。上面列出的大部分網頁元素都是靜態圖像，還有幾個 JavaScript 和 CSS 文件。格雷厄姆解釋說，當你在查看一個網頁時，Wayback Machine 會從不同的圖像、JavaScript 和 CSS 文件中提取內容以生成頁面。

“當我們重現一個頁面時，我們實際上是把每個具有自己的URL和自己的存檔的頁面要求收集起來，然後把它們放在一起，”他說。“其中一個挑戰是，這些對象中的每一個可能在不同的時間和日期被存檔。”

“當我們‘回放’一個頁面時，我們實際上會將收集到的每個網頁快照和這個 URL 的實時訪問狀態放到了一起，”他說。“其中的一個挑戰是，每個靜態對象可能會在不同的時間被歸檔。”

例如，網頁頂部的主照片（“17XP-PULITZERS2-superJumbo-article.jpg”）是從我加載歸檔 8 天前抓取的。如果那張照片/文件對你的調查很重要，你可能需要檢查當時的歸檔頁面，看看它是否隨着時間的推移發生了變化，或者尋找一個更接近目標日期的快照。但只要那個文件在每個時間點都保持不變，就沒有問題。

作為一條普遍但並非絕對的規則，典型網頁的正文通常不會從另一個頁面或文件中提取。因此，它不太可能受到這種動態性的影響。但最安全的做法還是檢查“關於此捕獲”，並確保你引用的頁面捕獲中的文本、圖片或其他元素與你想要查閱的日期一致。

3. 使用 Google 表格對網址進行批量存檔

格雷厄姆提醒我，可以使用 Google 表格上傳 URL 進行批量歸檔。這個過程相當簡單。首先創建一個 Google 表格，在其中只有一列，列出你想要存檔的 URL。然後在這裡將你的 Google 賬戶連接到你的 archive.org 賬戶。

圖：互聯網檔案館

一旦完成，您將看到下圖，這個時候點擊“歸檔網址”（Archive URLs）。

圖：互聯網檔案館

現在，你可以將 Google 表格的鏈接複製粘貼到相應位置。

圖：互聯網檔案館

從你將 Google 賬戶和 archive.org 賬戶連接起來後，你所捕捉的所有網頁快照都將存儲在你的 archive.org 賬戶中，方便你查閱。

他說：“這個功能的出現是因為有一天我的妻子問我，‘馬克，我怎樣才能輕鬆地歸檔一堆 URL？’？”

格雷厄姆與互聯網檔案館的工程師們合作，讓 Wayback Machine 實現了這個功能。

4. 發送你的反饋和建議

“由於用戶的要求、提問或建議，如今的 Wayback Machine 有了許多的功能，”格雷厄姆說。“我們非常感謝這些反饋和建議。現在很多功能都是因為用戶的請求才開發的。我們非常歡迎用戶的反饋和建議。”

他鼓勵人們發送郵件到 info@archive.org 進行反饋和建議。

“我們每天收到數百封電子郵件，我們有一個團隊專門負責查閱和回復這些郵件，”格雷厄姆說。“我個人會回復那些無法由這個團隊直接處理的郵件。”他也特別鼓勵記者們在有問題或請求時主動和他們聯繫。

額外內容：歸檔社交媒體信息

Wayback Machine 的資深用戶會知道，在上面存檔社交媒體內容的難度非常高，這和 Wayback Machine 自身的功能和限制關係不大，而是與像 Meta 這樣的公司阻止內容抓取有關。

這是格雷厄姆關於為什麼很難從社交媒體存檔內容的原因的解釋：

就像一些網站比另一些網站更難存檔一樣，特別是 Facebook 和 Instagram 帶來了挑戰。他們採取積極措施試圖阻止各種自動化腳本，包括爬取內容的腳本。例如，如果你去 Facebook 網站，那裡有一個關於網絡爬取的部分，他們談到了他們為防止網絡爬取和網絡歸檔所投入的人力資源。

我們尊重互聯網，這些不是我們的材料。作為一個圖書館，我們努力使材料普遍可用。因此，我們也在努力使得 Facebook 和 Instagram 的信息可以被存檔，而且我們認為我們完全有權存檔公開可訪問的信息。

一個令人鼓舞的消息是，格雷厄姆表示，Wayback Machine 正在“積極與幾家媒體合作”，以改善進社交媒體內容的存檔，希望這件事很快得到改善。

本文最初發表在克雷格·西爾弗曼（Craig Silverman）的新聞信《數字調查》（Digital Investigations）上，全球深度報道網獲授權翻譯轉載