互联网有96%的内容都位于“深网”，我们要如何才能检索到？

来自全世界的调查记者齐聚在汉堡第十一届全球深度调查报道大会。图片：Nick Jaussi / nickjaussi.com

来自全世界的调查记者齐聚在汉堡第十一届全球深度报道大会。图片：Nick Jaussi / nickjaussi.com

大多数的记者每天都会使用谷歌进行检索，但是搜索引擎能够覆盖的范围只有 4%，而无法被搜索引擎搜到的部分基本都可以划归为「深网」（Deep Web）的范畴。如何检索「深网」的内容？德国记者与新闻培训专家 Albrecht Ude 在第11届全球深度报道大会上分享自己的经验。

「如果你要找的内容藏匿在深网里，那么搜索引擎肯定是毫无用处的。」Ude 说。

那么记者该如何获取深网中的信息呢？

Ude 认为我们应该使用抽象思维——不要去想具体内容，而需要发挥想象力，猜想你想要的内容可能被放在互联网的哪个角落。基于这种猜想，再去寻找相关的数据库。

但搜索引擎通常只能搜索到数据库的文件名，而覆盖不到数据库的具体内容。所以在检索具体数据的这步上，你只能亲力亲为。例如，如果你需要某位建筑师的住址与联络信息，你可以查看有没有地区性的建筑师协会数据库，然后再浏览查阅数据库中存储的内容。

Ude 分享了四个小贴士，帮助你找到搜索引擎覆盖不到的数据库：

1. 是谁在运营数据库？

在你寻找信息的时候，问问自己：谁最有可能投入时间与金钱去建立、维持一个包含这些信息的数据库呢？ Ude 认为，这个问题是搜索引擎解决不了的，「只能由你的头脑解决」。

2. 善用搜索引擎语法

根据搜索引擎的算法，你可以在搜索引擎中输入「database OR directory OR catalogue OR registry」，这样你就可以得到相应的数据库/名录/目录/登记簿。如果你希望保护自己的信息隐私，荷兰公司运营的网站 www.startpage.com 可以帮你去进行谷歌检索，同时在你与谷歌之间作为屏障，避免你的搜索信息被谷歌保留。

3. 活用维基百科

在维基百科上浏览条目时，留意页面底部「外部链接（External links）」的板块。Ude 认为，这些链接指向的内容质素通常来说都比搜索引擎得到的结果要高。

维基百科分类页面与关键词链接同样是很好的线索。如果你需要将候补结果的范围缩小到特定语言，你可是尝试使用该语言进行搜索。

在维基百科上，你也可以找到数据库的清单。例如，一些学术数据库的清单与一个在线数据库的清单。

4. 搜索资料库列表

当用英文搜索的时候，在搜索引擎里输入「a * z database」。这会让你得到很多按照字母表顺序排列的数据库。

活用你所在城市的大学图书馆。这能够让你有权限获取到上千万的科学数据库，而这些数据库通常都是会收费的。如果你不是该校在读学生，也可以考虑向大学读书馆购买在线数据库服务，这也比一般数据机构收取的年费要便宜多了。

如果有必要的话，一定要试试用其他语言进行搜索。

彩蛋

Ude 同样分享了一些你不可错过的数据库：

想要搜索历史记录、已被删除的网页，存档是最好的工具。例如，你可以找到某公司已经从网上移除或更改的信息或者。你可以在 WaybackMachine 进行搜索，寻找被归档的页面, 或者在 Archive.today，根据你的需求对特定页面进行存档。

从 IANA Root Zone Database 可以找到所有有效、可用一级域名的拥有者个人信息。虽然由于新的隐私法律，新近的域名拥有者信息将不会在欧盟国家提供；但只要你是记者，都可以努力尝试去交涉，看有否协调的余地。

WorldCat 是一个全球性的图书馆目录，在这里你可以找到任何已出版图书的信息。而如果人名是你的线索， WorldCat’s Identities 则会是最实用的工具。

如果你希望调查一个互联网骗子，Ude认为 Common Vulnerabilities Exposures 数据库是一个很好的工具，因为这个网站 “对每个已知的互联网漏洞都了如指掌”。

Tenders Electronic Daily 列出了欧盟的花费明细，可以看到钱究竟被花到了什么地方。专为调查者设计，每日更新。

Directory of Open Access Journals 列出了经历过同侪覆核、并可免费获取阅读的科学期刊文章。

如果想要找到数据库，国家图书馆是很好的资源。维基百科上有一个国家图书馆与州立图书馆的清单。

德国新闻机构《时代周报》线上版将德国所有的街道名与 OpenStreetMap 系统整合到了一起. 如果你只知道街道名，而不知道这条街道位于哪座城市，这个工具将会非常实用。

全球深度报道网 -

2019全球深度报道大会