互聯網有96%的內容都位於“深網”,我們要如何才能檢索到?

Print More
來自全世界的調查記者齊聚在漢堡第十一屆全球深度調查報道大會。圖片:Nick Jaussi / nickjaussi.com

來自全世界的調查記者齊聚在漢堡第十一屆全球深度報道大會。圖片:Nick Jaussi / nickjaussi.com

大多數的記者每天都會使用谷歌進行檢索,但是搜索引擎能夠覆蓋的範圍只有 4%,而無法被搜索引擎搜到的部分基本都可以劃歸為「深網」(Deep Web)的範疇。如何檢索「深網」的內容?德國記者與新聞培訓專家 Albrecht Ude 在第11屆全球深度報道大會上分享自己的經驗。

「如果你要找的內容藏匿在深網裡,那麼搜索引擎肯定是毫無用處的。」Ude 說。

那麼記者該如何獲取深網中的信息呢?

Ude 認為我們應該使用抽象思維——不要去想具體內容,而需要發揮想象力,猜想你想要的內容可能被放在互聯網的哪個角落。基於這種猜想,再去尋找相關的數據庫。

但搜索引擎通常只能搜索到數據庫的文件名,而覆蓋不到數據庫的具體內容。所以在檢索具體數據的這步上,你只能親力親為。例如,如果你需要某位建築師的住址與聯絡信息,你可以查看有沒有地區性的建築師協會數據庫,然後再瀏覽查閱數據庫中存儲的內容。

Ude 分享了四個小貼士,幫助你找到搜索引擎覆蓋不到的數據庫:

1. 是誰在運營數據庫?

在你尋找信息的時候,問問自己:誰最有可能投入時間與金錢去建立、維持一個包含這些信息的數據庫呢? Ude 認為,這個問題是搜索引擎解決不了的,「只能由你的頭腦解決」。

2. 善用搜索引擎語法

根據搜索引擎的算法,你可以在搜索引擎中輸入「database OR directory OR catalogue OR registry」,這樣你就可以得到相應的數據庫///記簿。如果你希望保護自己的信息隱私,荷蘭公司運營的網站 www.startpage.com 可以幫你去進行谷歌檢索,同時在你與谷歌之間作為屏障,避免你的搜索信息被谷歌保留。

3. 活用維基百科

維基百科上瀏覽條目時,留意頁面底部「外部鏈接(External links)」的板塊。Ude 認為,這些鏈接指向的內容質素通常來說都比搜索引擎得到的結果要高。

維基百科分類頁面與關鍵詞鏈接同樣是很好的線索。如果你需要將候補結果的範圍縮小到特定語言,你可是嘗試使用該語言進行搜索。

維基百科上,你也可以找到數據庫的清單。例如,一些學術數據庫的清單與一個在線數據庫的清單

4. 搜索資料庫列表

當用英文搜索的時候,在搜索引擎里輸入「a * z database」 這會讓你得到很多按照字母表順序排列的數據庫。

活用你所在城市的大學圖書館。這能夠讓你有權限獲取到上千萬的科學數據庫,而這些數據庫通常都是會收費的。如果你不是該校在讀學生,也可以考慮向大學讀書館購買在線數據庫服務,這也比一般數據機構收取的年費要便宜多了。

如果有必要的話,一定要試試用其他語言進行搜索。

彩蛋

Ude 樣分享了一些你不可錯過的數據庫:

想要搜索歷史記錄、已被刪除的網頁,存檔是最好的工具。例如,你可以找到某公司已經從網上移除或更改的信息或者。你可以在 WaybackMachine 進行搜索,尋找被歸檔的頁面, 或者在 Archive.today,根據你的需求對特定頁面進行存檔。

IANA Root Zone Database 可以找到所有有效、可用一級域名的擁有者個人信息。雖然由於新的隱私法律,新近的域名擁有者信息將不會在歐盟國家提供;但只要你是記者,都可以努力嘗試去交涉,看有否協調的餘地。

WorldCat 是一個全球性的圖書館目錄,在這裡你可以找到任何已出版圖書的信息。而如果人名是你的線索, WorldCat’s Identities 則會是最實用的工具。

如果你希望調查一個互聯網騙子,Ude認為 Common Vulnerabilities Exposures 數據庫是一個很好的工具,因為這個網站對每個已知的互聯網漏洞都了如指掌

Tenders Electronic Daily 列出了歐盟的花費明細,可以看到錢究竟被花到了什麼地方。專為調查者設計,每日更新。

Directory of Open Access Journals 列出了經歷過同儕覆核、並可免費獲取閱讀的科學期刊文章。

如果想要找到數據庫,國家圖書館是很好的資源。維基百科上有一個 國家圖書館與州立圖書館的清單

德國新聞機構《時代周報》線上版將 德國所有的街道名 OpenStreetMap 統整合到了一起. 如果你只知道街道名,而不知道這條街道位於哪座城市,這個工具將會非常實用。

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註