現今調查新聞動輒涉及大量文件作為證據,尤其是電子文檔,部分隨報道發表而公開,以增強新聞可信度。但媒體務必要謹慎行事,因為文檔一旦處理不當,“新聞線人”的身份就會暴露,甚至人身安全不保。
提供文檔解決方案的民間組織DocumentCloud根據多年經驗,總結出使用電子文檔過程中的注意事項,指導大家識別出文檔中的隱藏信息,其中不少都可能在無形中泄露你的個人隱私。
在隱私極為脆弱的互聯網時代,不單是記者,其實我們每一個人都有必要學習相關知識,減少不必要的損失。
文檔中的“元數據”是否已經清除?
現在的文檔處理軟件功能豐富,比如用戶可以保留文件修改記錄,誰在何時進行了何種修改一覽無遺,而圖片文檔往往記錄了拍攝的地理位置。這些包含了時間、地點、人物和操作信息的數據就被稱為“元數據”(metadata)。
元數據無處不在,除了上述例子,mp3格式的語音文件中通常會包含一種稱為ID3的數據標籤,本來是用於記錄音樂的曲名、演唱者、專輯、音軌數等信息,但記者錄音文件中的ID3就有可能成為泄漏報料者身份的線索。
因此,在必要的時候我們應盡量刪除文檔中的元數據。每種格式的元數據有不同的檢查和刪除方式,只要在互聯網搜索引擎中鍵入格式名稱和“元數據”(兩者之間用空格分開,“元數據”也可用“metadata”代替),就不難找到適當的處理方法,關鍵要時刻保持風險意識,尤其是在使用以下文檔時:
- Office Word 文檔:微軟官方網站對於如何發現和刪除隱藏的數據和個人信息有詳細介紹,請點擊此處查看。
- 圖像:EXIF是專門記錄數碼照片拍攝信息的格式,全名為“可交換圖像文件格式”(exchangeable image file format)。網上有許多免費工具供你查看數碼照片的EXIF信息,但如果你覺得相關照片太敏感而不適合於傳到網上,瀏覽器Firefox和Chrome提供的免費插件也可以實現同樣功能。.
- PDF:pdf文檔所屬的Adobe公司也提供了關於元數據的詳細說明,讀者可以自行查看並按需要作設置。需要指出的是,一般情況下Word或Excel文檔中的元數據可以在轉換成pdf的過程中刪除,但對於原本就是pdf格式的文檔,元數據則較難處理。
是否已經逐一檢查文檔中的識別符?
識別符(identifier)是一種用於追溯作品來源的方式。中國古代工匠為皇室燒制磚瓦時都會留下一個符號,便於在出現質量問題後追責,而這個符號就是一種最古老的識別符。
在印刷文檔(包括打印)中,識別符也很常見,主要的形式包括:
- 打印點陣
- 水印
- 特殊種類的字形
- 異常的空格
這些都是在印刷年代幫助機要部門追溯文檔流向的技術,其中人們較少注意到隱藏的“打印點陣”,但最近在美國引起廣泛關注。
事源今年6月,FBI拘捕美國國家安全局承包商僱員Reality Leigh Winner,她涉嫌泄漏有關俄羅斯干預美國大選的機密文件。專家發現泄漏的文件布滿了細小的黃點,肉眼難以發現,但經藍光調整後便清晰可見,分析指這些點記錄了打印時間和打印機產品編號。人們懷疑當局因此而追查到泄漏文件的人,但FBI拒絕確認調查細節。
其實,多年前就有民間組織發現了這些小黃點的存在,並通過網格分析法成功破解隱藏的信息。

以上圖片為Xerox一款打印機的隱藏點陣,專家成功解讀出其中的時間信息。圖片來源:Electronic Frontier Foundation
要抹去這些紙質文件中的隱藏信息,一種方法是不要複印或掃描,而是轉錄紙質文件中的文字後新建一個電子文檔。但總體來說沒有統一的方法,要具體情況具體分析。
是否對文件做了適當轉換或重建?
如上所述,儘管有一些工具可以幫你發現並刪除部分元數據,但要消除潛在的隱藏信息則可能需要重建一份文檔。
方法不一而足,網上也有一些工具幫你實現轉換的功能,但必須充分了解這些工具的原理,仔細評估該方式是否足夠。
DocumentCloud就介紹了一個比較常用的重建pdf文檔方法。他們會將pdf的每一頁轉換成截圖,然後用文字識別軟件生成一份全新文檔。這樣就避免了複製粘貼過程中意外地將一些隱藏信息帶到新文檔的問題,不給追蹤文檔來源的人留下可趁之機。
識別和去除電子文檔中隱藏信息的技術種類繁多,而且發展迅速,本文難以逐一列舉。我們希望讀者看完後,處理電子文檔時能更加謹慎。也希望今後記者在向公眾揭發醜聞的時候,能夠因此減少對自己和新聞線人的傷害。
編譯/周穗斌
編輯/Ivan Zhai,梁思然
相關閱讀:
亞洲深度報道大會記者手記:開放心態,擁抱技術,調查記者無懼數字時代的挑戰
Ted Han是DocumentCloud的總監。他大學主修計算機語言,在科技創業領域有超過10年經驗,曾經參與DataMapper和Merb等一系列大數據項目。
Quinn Norton是一名科技記者,她從1995年就開始研究黑客問題。她的文章主要發表在《連線》雜誌和《大西洋月刊》,題材覆蓋科學、版權法、機器人、醫療等,但最讓她痴迷的還是黑客技術。