当 BBC 的在线调查专家 Paul Myers 将某位知名人物的个人信息用投影展示的时候,整个会场的人都发出了惊叹声。
他刚刚找到了7个电话号码,8个电子邮箱地址,以及其他许多个人隐私细节——这些信息全部属于全英国最有名、也最受保护的名人之一(Myers 要求不公开此人姓名)。
而 Myers 只花了短短三分钟,用两个搜索工具就做到了这一切。
不过,当 Myers 用一般方法搜索 BBC 网站域名所有者的信息时,得到的结果却是「根据隐私条例不予显示」,现场又传来失望的叹息声——大家本来预期的是,这种信息是最容易获取的。
这两次搜索就像 Myers 在这次工作坊传达出的中心思想:即便新鲜强大、不断涌现的数字工具能够让受过训练、富有耐心的人挖掘出藏在地表以下的数据,然而新的法律、公司的限制,以及全球范围内对于隐私保护的运动,这些都将数量庞大的数据库从记者能够接触到的范围内被隐藏了。
然后就是欧盟国家去年开始实施的《通常数据保护规定》(GDPR)。这个规定的影响无处不在,例如它让谷歌不得不停用了一些搜索功能,也让脸书停用了社交图谱搜索(Graph Search)功能。
这对于罪犯或是贪官来说可能是个好消息,因为这样一来他们就能更容易地逃过侦查——当然,记者们也都是非常「狡猾」的,Myers 说,而且他们明白怎么能游走在灰色地带的边缘,甚至漂亮地绕开有些限制。
为了高效地完成搜查检索,记者除了使用高阶编程与付费服务以外,Myers 还强调了基础工具与好奇心的重要性。拿一张 Paul Whelan(疑似美国间谍,目前被拘于俄罗斯)的脸书相片举例说明:相片上面 Paul Whelan 在一架飞行机中。Myers 希望知道当时 Whelan 当时身在何处,随后注意到 Whelan 脑后可以看见有一张灰暗模糊的飞行地图,上面依稀可辨有「Georgian」的字样以及河口的海岸线。于是他在网上找到了沒有被裁剪的版本,将图片用 Photoshop 打开,调整对比度与亮度,然后就是见证奇迹的时刻了——Myers 从 Whelan 身后的地图上辨认出了他正飞往的目的地是密歇根。
接下来是轻松一刻。当 Myers 在 pipl.com 上搜索自己的个人资料时,发现他不知什么时候在网上有了一个「别名」。在网页上,他的别名一栏里写的是「Hugh Jarse」——一旦读快就成了不是什么好意思的词。全场听罢大笑。他表示他后来才回忆起来,很久很久以前他曾经在游戏愤怒的小鸟里给自己取了这样一个昵称。
Myers 同样在他的个人网站上刊载了大量丰富的贴士与调查工具。在第十一届全球深度报道大会上,我们对他进行了专访。
深度网:西方世界最近对于数据隐私的呼声对深度调查报道有怎样的影响?
Paul Myers:在隐私与透明之间,有一场仗要打。
作为一个调查者,我个人的观点是,重视个人隐私的意义是很重大的,但我担心的是一旦矫枉过正,你也将保护那些罪犯、极端分子、恐怖组织以及任何你应该调查的那些人。这样一来,调查工作就只能由官方执法机关来执行,而最终这种情况会伤害到整个社会。我们现在明显就已经在往这个方向走了。在隐私与透明之间,有一场仗要打。
这么说吧,假如你在调查一个有黑社会在背后撑腰的公司。他们在全世界都有据点,但他们的总部在华沙。过去,你可以搜查到这家公司在华沙的那些雇员。现在由于对隐私保护的呼声,你在脸书上已经没法这样做了。所以你也证实不了你的想法,而这些人该洗钱的继续洗钱,甚至犯下更糟糕的罪行。或许你可以找到一个折衷的办法,例如脸书应该提供一个特殊的搜索功能供调查记者使用,这样合理合法的调查是会让社会变得更好的。
当然,更大的挑战还在于,许多国家还没有将他们的数据电子化,所以你想搜索都没有地方搜。
深度网:社交媒体公司和管理者应该怎样反省他们推出的这些限制条件——他们有没有可能做点什么来寻求一个更好的平衡呢?
Paul Myers:比如,Bellingcat 的记者当时正在对发生在也门的人权侵害事件进行调查,在脸书上搜集那些目击者发布的贴文。我还记得那天是6月6号——没有任何事先通知或者任何协调余地地,不知道是谁一点鼠标,一切就都没了。(当天,脸书突然关停了社交图谱搜索功能)这对于也门那些人权践踏者来说是值得弹冠相庆的一天,我觉得很可能他们还就真狂欢了一晚来庆祝这事。所以寻求一个平衡是很重要的。
对于域名注册也是同样的道理。在过去,如果你从某某网站订了一堆球鞋,你给了钱以后对方卷款就跑,这种时候你就可以去查看域名注册的详细资料,弄到他们的地址,然后再寻求解决方案。但拜《通常数据保护规定》所赐,现在这样行不通了。因为美国的网络监管部门不想交两千万欧元的罚款,也不想冒这个险。比起判断哪个是公司哪个是个人,他们干脆一刀切地来处理。
想要改变这种现况是有办法的,可以建立起一套系统,系统里人们可以选择将自己的信息向所有人公开。而如果他们没有做出确切选择的时候,我们就可以当做他们是默认分享个人具体信息的。这套系统已经存在有数十年了,在我看来其实是很合理的。如果你拒绝商业公司进行匿名注册,我不觉得这有什么错;反正商业公司也不会受《通常数据保护规定》保护。不过现在这个情况,找一个域名注册信息比登天还难。
深度网:如果你只能向一个网络知识很有限的记者推荐四个搜索工具,你会选择哪四个?
Paul Myers:如果愿意付费、或者和别人一起分摊费用的话,我强烈推荐 pipl.com,因为现在每个人都有会手机,这个以手机号为基础线索的网站就显得非常出色。当然还有其它工具,但由于欧盟国家的《通常数据保护规定》,差不多十亿个欧洲电话号码都已经被从这些网站上移除了。
如果是反向图片搜素,我推荐 Yandex。
当然,还有谷歌的高级搜索功能——谷歌还有很多你平时很少使用的功能,例如限定时间范围,限定搜索结果的语言或地区。Twitter 的高级搜索也能让你追踪两个账号之间的对话,这些功能都很厉害。可惜现在脸书已经没有进阶搜索了,不过 LinkedIn 上还有。LinkedIn 上还提供「名」和「姓」的独立输入框,让你能更精确地缩小结果范围。例如你想找 Harrison Ford,在「名」、「姓」框分别输入输入「Harrison」和「Ford」,领英网就不会让姓 Harrison 的「Rex Harrison」出现在你的结果页当中。
有一个很棒的免费搜索域名工具,叫 DomainBigData.com,使用上非常灵活方便。
然后谨记!在你做反向图片搜素的时候,一定要用 Photoshop 裁剪图片,只留下图片的关键信息部分!
深度网:为了更好地实现线上搜查,记者们应该养成怎样的习惯?
Paul Myers:除了学习使用搜查工具、锻炼调查技巧,可以尝试去用一种搜索引擎的方式去想问题,而不是直接把你脑海中蹦出的第一个词输到检索栏里。所以,如果你想知道有哪些人参加了全球深度报道大会,不要在引擎里搜「清单 人 GIJC」——这没什么用的。你应该试试「GIJC 参加者」或「与会人」——去搜索那些有可能出现在你要找的网页上的词。这其实是个很少人能意识到的事,我们从事线上调查的人比较喜欢将手头已有的信息用不同的方式排列组合。