使用網站時光機的4個必備技巧

Print More

English

tips techniques using wayback machine

圖:Shutterstock

ProPublica 的克雷格·西爾弗曼(Craig Silverman)在這篇文章中分享了如何批量存檔網頁,比較更改以及查看頁面元素何時被存檔。

在上一期的《數字調查》(Digital Investigations,一份由西爾弗曼運營的新聞信)為如何充分利用 Wayback Machine(網站時光機) 提供了建議。在今天這篇文章中,我又帶來了更多使用 Wayback Machine 的使用技巧,這得益於我對 Wayback Machine 負責人馬克· 格雷厄姆(Mark Graham)的採訪。

他指出了我在上一篇文章中忘記提及的一些功能,以及一個我不知道的功能。我們還討論了存檔社交媒體內容的挑戰。

Wayback Machine互聯網檔案館(Internet Archive)運行,這是一個成立 27 年的非營利組織,致力於為所有知識提供普遍訪問。 “我們是一個數字圖書館,”格雷厄姆說。

他說,作為一個圖書館,Wayback Machine 所擁有的是贊助者而不是用戶。讓我們看看 Wayback Machine 中一些對於記者和研究人員最有用的功能。

1. 查看並比較更改

“更改”功能讓你可以比較同一存檔頁面的不同版本,並看到其中的差異。

“可能有一位新聞記者正在寫一篇報道,展示網頁上的內容是如何隨着時間的推移而變化的,”格雷厄姆說,“在這種情況下,他們需要了解 Wayback Machine 的‘更改’(Changes)功能,你可以比較同一 URL 在兩個不同時間點上的內容。”

“更改”功能可以從你在 Wayback Machine 中瀏覽的任何存檔頁面的頂部菜單中訪問:

wayback machine track website changes

圖:Wayback Machine 截圖


你也可以直接通過這種URL格式加載它: https://web.archive.org/web/changes/https://www.nytco.com/journalism/

將你想要進行查看的網址放在 https://web.archive.org/web/changes/  後面,它將顯示一個按年歸檔的網格頁面:

wayback machine website archive calendar

圖:Wayback Machine 截圖


每個陰影方塊都對應一個網頁快照,顏色圖例表示哪些天可能網頁內容出現了重大變化。選擇兩個截圖,然後點擊頁面頂部的“比較”(Compare)按鈕,你就會到到一個並排顯示的網頁快照。

我選擇了2023年3月初的一頁(左)和2022年1月初的一頁(右)。“比較”結果顯示,《紐約時報》關於其新聞業務的頁面更新了底部菜單選項和文本:

Wayback Machine side-by-side comparison website archive

圖:Wayback Machine 截圖


2. 使用“關於此捕獲”來驗證網頁元素

Wayback Machine 的基本功能是捕捉和儲存網頁快照,但實際它的用途更為微妙。

“網絡是混亂的,網絡在不斷變化,”格雷厄姆說。“當我說不斷變化時,指的是它也可以是動態的。”

我問他,我們如何確認網頁快照顯示的正是 Wayback Machine 中列出的日期和時間的頁面內容。簡單的答案是,是,你可以有這個信心。但歸檔頁面的元素可以從不同的歸檔材料中獲取,每個都有自己的時間戳。這就是 Wayback Machine 的微妙之處。

Wayback Machine 有一個功能,可讓您查看網頁上不同元素的時間戳。您可以通過點擊頁面網頁快照右上角的“關於此捕獲”(About this capture)按鈕來訪問它:

Wayback Machine About this capture function

Image: Screenshot

以 https://www.nytco.com/journalism/ 為例,我們得到以下結果:

Wayback Machine saved URLS

圖:Wayback Machine


儘管該頁面在2021年10月20日被存檔,但 Wayback Machine 會從較新的網頁快照中提取一些元素。上面列出的大部分網頁元素都是靜態圖像,還有幾個 JavaScript 和 CSS 文件。格雷厄姆解釋說,當你在查看一個網頁時,Wayback Machine 會從不同的圖像、JavaScript 和 CSS 文件中提取內容以生成頁面。

“當我們重現一個頁面時,我們實際上是把每個具有自己的URL和自己的存檔的頁面要求收集起來,然後把它們放在一起,”他說。“其中一個挑戰是,這些對象中的每一個可能在不同的時間和日期被存檔。”

“當我們‘回放’一個頁面時,我們實際上會將收集到的每個網頁快照和這個 URL 的實時訪問狀態放到了一起,”他說。“其中的一個挑戰是,每個靜態對象可能會在不同的時間被歸檔。”

例如,網頁頂部的主照片(“17XP-PULITZERS2-superJumbo-article.jpg”)是從我加載歸檔 8 天前抓取的。如果那張照片/文件對你的調查很重要,你可能需要檢查當時的歸檔頁面,看看它是否隨着時間的推移發生了變化,或者尋找一個更接近目標日期的快照。但只要那個文件在每個時間點都保持不變,就沒有問題。

New York Times corporate page archived

圖:《紐約時報》網站

作為一條普遍但並非絕對的規則,典型網頁的正文通常不會從另一個頁面或文件中提取。因此,它不太可能受到這種動態性的影響。但最安全的做法還是檢查“關於此捕獲”,並確保你引用的頁面捕獲中的文本、圖片或其他元素與你想要查閱的日期一致。

3. 使用 Google 表格對網址進行批量存檔

格雷厄姆提醒我,可以使用 Google 表格上傳 URL 進行批量歸檔。這個過程相當簡單。首先創建一個 Google 表格,在其中只有一列,列出你想要存檔的 URL。然後在這裡將你的 Google 賬戶連接到你的 archive.org 賬戶。

圖:互聯網檔案館


一旦完成,您將看到下圖,這個時候點擊“歸檔網址”(Archive URLs)。

圖:互聯網檔案館

現在,你可以將 Google 表格的鏈接複製粘貼到相應位置。

圖:互聯網檔案館

從你將 Google 賬戶和 archive.org 賬戶連接起來後,你所捕捉的所有網頁快照都將存儲在你的 archive.org 賬戶中,方便你查閱。

他說:“這個功能的出現是因為有一天我的妻子問我,‘馬克,我怎樣才能輕鬆地歸檔一堆 URL?’?”

格雷厄姆與互聯網檔案館的工程師們合作,讓 Wayback Machine 實現了這個功能。

4. 發送你的反饋和建議

“由於用戶的要求、提問或建議,如今的 Wayback Machine 有了許多的功能,”格雷厄姆說。“我們非常感謝這些反饋和建議。現在很多功能都是因為用戶的請求才開發的。我們非常歡迎用戶的反饋和建議。”

他鼓勵人們發送郵件到 info@archive.org 進行反饋和建議 。

“我們每天收到數百封電子郵件,我們有一個團隊專門負責查閱和回復這些郵件,”格雷厄姆說。“我個人會回復那些無法由這個團隊直接處理的郵件。”他也特別鼓勵記者們在有問題或請求時主動和他們聯繫。

額外內容:歸檔社交媒體信息

Wayback Machine 的資深用戶會知道,在上面存檔社交媒體內容的難度非常高,這和 Wayback Machine 自身的功能和限制關係不大,而是與像 Meta 這樣的公司阻止內容抓取有關。

這是格雷厄姆關於為什麼很難從社交媒體存檔內容的原因的解釋:

就像一些網站比另一些網站更難存檔一樣,特別是 Facebook 和 Instagram 帶來了挑戰。他們採取積極措施試圖阻止各種自動化腳本,包括爬取內容的腳本。例如,如果你去 Facebook 網站,那裡有一個關於網絡爬取的部分,他們談到了他們為防止網絡爬取和網絡歸檔所投入的人力資源。

我們尊重互聯網,這些不是我們的材料。作為一個圖書館,我們努力使材料普遍可用。因此,我們也在努力使得 Facebook 和 Instagram 的信息可以被存檔,而且我們認為我們完全有權存檔公開可訪問的信息。

一個令人鼓舞的消息是,格雷厄姆表示,Wayback Machine 正在“積極與幾家媒體合作”,以改善進社交媒體內容的存檔,希望這件事很快得到改善。

本文最初發表在克雷格·西爾弗曼(Craig Silverman)的新聞信《數字調查》(Digital Investigations)上,全球深度報道網獲授權翻譯轉載

附加資源

識別虛假信息,事實核查專家 Craig Silverman 會用到哪些工具?

5個讓記者更輕鬆的搜索工具

如何使用“網站時光機”進行在線調查?


Craig Silverman是ProPublica的記者,負責報道投票、平台、虛假信息和在線操縱。他曾是BuzzFeed News的媒體編輯,在那裡他率先報道了數字虛假信息。

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註