互聯網有96%的內容都位於“深網”，我們要如何才能檢索到？

來自全世界的調查記者齊聚在漢堡第十一屆全球深度調查報道大會。圖片：Nick Jaussi / nickjaussi.com

來自全世界的調查記者齊聚在漢堡第十一屆全球深度報道大會。圖片：Nick Jaussi / nickjaussi.com

大多數的記者每天都會使用谷歌進行檢索，但是搜索引擎能夠覆蓋的範圍只有 4%，而無法被搜索引擎搜到的部分基本都可以劃歸為「深網」（Deep Web）的範疇。如何檢索「深網」的內容？德國記者與新聞培訓專家 Albrecht Ude 在第11屆全球深度報道大會上分享自己的經驗。

「如果你要找的內容藏匿在深網裡，那麼搜索引擎肯定是毫無用處的。」Ude 說。

那麼記者該如何獲取深網中的信息呢？

Ude 認為我們應該使用抽象思維——不要去想具體內容，而需要發揮想象力，猜想你想要的內容可能被放在互聯網的哪個角落。基於這種猜想，再去尋找相關的數據庫。

但搜索引擎通常只能搜索到數據庫的文件名，而覆蓋不到數據庫的具體內容。所以在檢索具體數據的這步上，你只能親力親為。例如，如果你需要某位建築師的住址與聯絡信息，你可以查看有沒有地區性的建築師協會數據庫，然後再瀏覽查閱數據庫中存儲的內容。

Ude 分享了四個小貼士，幫助你找到搜索引擎覆蓋不到的數據庫：

1. 是誰在運營數據庫？

在你尋找信息的時候，問問自己：誰最有可能投入時間與金錢去建立、維持一個包含這些信息的數據庫呢？ Ude 認為，這個問題是搜索引擎解決不了的，「只能由你的頭腦解決」。

2. 善用搜索引擎語法

根據搜索引擎的算法，你可以在搜索引擎中輸入「database OR directory OR catalogue OR registry」，這樣你就可以得到相應的數據庫/名錄/目錄/登記簿。如果你希望保護自己的信息隱私，荷蘭公司運營的網站 www.startpage.com 可以幫你去進行谷歌檢索，同時在你與谷歌之間作為屏障，避免你的搜索信息被谷歌保留。

3. 活用維基百科

在維基百科上瀏覽條目時，留意頁面底部「外部鏈接（External links）」的板塊。Ude 認為，這些鏈接指向的內容質素通常來說都比搜索引擎得到的結果要高。

維基百科分類頁面與關鍵詞鏈接同樣是很好的線索。如果你需要將候補結果的範圍縮小到特定語言，你可是嘗試使用該語言進行搜索。

在維基百科上，你也可以找到數據庫的清單。例如，一些學術數據庫的清單與一個在線數據庫的清單。

4. 搜索資料庫列表

當用英文搜索的時候，在搜索引擎里輸入「a * z database」。這會讓你得到很多按照字母表順序排列的數據庫。

活用你所在城市的大學圖書館。這能夠讓你有權限獲取到上千萬的科學數據庫，而這些數據庫通常都是會收費的。如果你不是該校在讀學生，也可以考慮向大學讀書館購買在線數據庫服務，這也比一般數據機構收取的年費要便宜多了。

如果有必要的話，一定要試試用其他語言進行搜索。

彩蛋

Ude 同樣分享了一些你不可錯過的數據庫：

想要搜索歷史記錄、已被刪除的網頁，存檔是最好的工具。例如，你可以找到某公司已經從網上移除或更改的信息或者。你可以在 WaybackMachine 進行搜索，尋找被歸檔的頁面, 或者在 Archive.today，根據你的需求對特定頁面進行存檔。

從 IANA Root Zone Database 可以找到所有有效、可用一級域名的擁有者個人信息。雖然由於新的隱私法律，新近的域名擁有者信息將不會在歐盟國家提供；但只要你是記者，都可以努力嘗試去交涉，看有否協調的餘地。

WorldCat 是一個全球性的圖書館目錄，在這裡你可以找到任何已出版圖書的信息。而如果人名是你的線索， WorldCat’s Identities 則會是最實用的工具。

如果你希望調查一個互聯網騙子，Ude認為 Common Vulnerabilities Exposures 數據庫是一個很好的工具，因為這個網站 “對每個已知的互聯網漏洞都了如指掌”。

Tenders Electronic Daily 列出了歐盟的花費明細，可以看到錢究竟被花到了什麼地方。專為調查者設計，每日更新。

Directory of Open Access Journals 列出了經歷過同儕覆核、並可免費獲取閱讀的科學期刊文章。

如果想要找到數據庫，國家圖書館是很好的資源。維基百科上有一個國家圖書館與州立圖書館的清單。

德國新聞機構《時代周報》線上版將德國所有的街道名與 OpenStreetMap 系統整合到了一起. 如果你只知道街道名，而不知道這條街道位於哪座城市，這個工具將會非常實用。

全球深度報道網 -

2019全球深度報道大會