2015调查新闻新招:网络搜索技法大全

Print More

工欲善其事,必先利其器。进入网络时代,远距离、短时间内核实信息怎么办?互联网研究专家告诉你:掌握工具性能、搜索和判断要领,“人肉搜索”能验证信息、寻找线索,说不定助你抢先一步得到独家。

曾经在一小时内起底ISIS刽子手圣战约翰的搜索专家Henk van Ess,以及网络搜索资源网站“互联网搜索诊所”(The Internet Research Clinic)”的开办人Paul Myers为您奉献搜索指南+工具+案例,快打开搜索引擎,学起来吧!【点击文中链接,更多人肉工具+案例细节等你收藏】


1. 网络搜索原理+技巧:教你查网页、人和域名

搜索引擎是我们常用的“开源”搜索工具中最重要的部分之一。结合社交网络,域名查找,以及更传统的搜索方式比如报纸和通讯录查找等,有效的网页搜索将会帮你找到调查过程中至关重要的信息。

book-cover2BBC的互联网研究专家Paul Myers《调查报道信息核实手册》(Verification Handbook for Investigative Reporting)上分享了自己使用谷歌搜索的一些妙招,一些方法也可以迁移到百度试试。

何为有效的网页搜索?谷歌之类的搜索引擎其实并不知道它们帮你找出来的网页是关于什么内容的。它们知道的是,这些页面上出现了哪些词。所以,要有效利用搜索引擎,你需要找出目标网页中应该会有的关键词。

要点:使用高级检索语法

大部分搜索引擎都有这类“隐蔽功能”,助你锁定搜索范围,改善搜索结果。

技巧1:非必需关键词(Optional keywords)
如果你没有一个特别确定的关键词,你可以嵌入一些可能的关键词,并使它们不损坏结果的完整性。

举个例子:你想查找有关德克萨斯州海洛因使用情况的网页,但它们不一定都含有“德克萨斯”这一关键词,有些页面可能只会提到德州不同城市的名字。

技巧来了:你可以用一个大写的“OR”将这些城市名分开,使它们成为检索词中的“非必需关键词”,如下图所示:

1

你也可以用这个技巧通过不同名称或拼写搜索同一个公司、机构或个人,如搜索“伊斯兰国”(ISIS / Isalamic State):

2

技巧2:利用域名搜索(Search by domain)
如果你想集中查找一个特定网站上的相关内容,可以使用的高级搜索语法是在“site:”后面输入网站域名。

比如,你只想查找Twitter上的相关结果,那么在关键词后输入“site:twitter.com”即可,如下图所示:

3.5

如果想在Twitter之外加上Facebook的相关结果,只要再用上“OR”就可以搞定,如下图所示:

4.5

这个技巧也可以用来集中搜索某个特定公司的网站。谷歌将只会从该站点返回结果。

你还可以用这个技巧来搜索政府或者学术网站上的资源。当你所研究的国家中政府和高校网站使用特别域名类型时,这一招尤其有效。如下图所示,搜索英国学术网站上的资料时,输入“site:ac.uk”:

3

注意:搜索学术网站时,记得检查一下你所找到的网页是由某所高校、某位教授、还是某个学生编辑和维护的。具体的信源是谁,一向都很重要。

技巧3:搜索文件类型(Searching for file types)
有些信息会以特定的文件格式类型出现。比如,数据出现的格式通常是Excel电子表格;专业制作的报告常以PDF文件的形式出现。

技巧来了:在“filetype:”后面加上目标文件类型的拓展名(如Excel表格的xls,Word文档的docx,幻灯片的pptx等),就可以在搜索过程中锁定某一特定格式的资料了。比如,搜索英国航空公司网站上(ba.com)PDF格式的年度报告(annual report),可搜索——”annual report” site:ba.com filetype:pdf,如下图所示:

4

【想知道如何有效找人、确认域名主人?请点击标题链接来获取技巧吧!】

2. 巧用搜索指令和后缀,搞定新闻三大要素

怎么用网络搜索搞定新闻的三大要素(人物、地点和时间(3W))呢?网络搜索专家Henk van Ess告诉你有哪些好工具和巧方法,让你搜索不再愁。

1) TA是谁?(Who?)
试试用谷歌写出一份壳牌公司CEO Ben van Beurden的背景介绍吧:

a.寻找资料和评价

5“is”这个简单的词是个神奇的小提示,能“命令”谷歌显示出和人物相关的资料和评价。为了避免结果杂乱,搜索时最好加上公司名称或其他细节,用AROUND指令告诉谷歌:这两个词离得近才行。

AROUND()指令必须大写,以保证搜索词之间的距离不超过两个词。

b.其他人的评价?

6这个搜索指令让谷歌 “显示除了壳牌内部文件,还有哪些PDF文件含有壳牌CEO名字?” 所以最后出现的是与搜索对象相关、但不是由他/她公司发布的文件。你能看到反对者、竞争者和异议者对他的评论。如果你觉得还不够,不妨输入以下指令试试:

inurl:pdf “ben van beurden” –site:shell.*

这样你还能找到filetype找不出来的PDF文件。

c.官方数据库

7再一步就是搜索全球关于他的官方文件。在网上搜索gov.uk(英国),.gov.au(澳大利亚), .gov.cn (中国), .gov (美国)和世界上其他国家的政府网站。如果你的所在国没有以.gov为结尾的政府网站链接,试试这样的组合:当地词汇+指令site: operator. 例如搜索德国的政府网站可以用:site:bund.de,要是荷兰的就用:site:overheid.nl。

按照此法,我们发现了van Beurden伦敦寓所的建筑许可证,按图索骥,就找到了他的完整住址和其他细节信息。

d.联合国资料

8现在试试在联合国相关组织网站里搜索信息。还是以壳牌CEO为例,我们搜索发现,他的名字出现在一份关于“国际化学品管理战略方针”(Strategic Approach to International Chemicals Management)的文件里,由此找到了他的全名,妻子全名和当时的护照号码。神奇吧?

e.寻找名字的不同拼法

9按照这个指令,你可以发现使用不同名字拼法的结果。你会搜到含有“壳牌(Shell)”字样的文件,但把称他为“Ben”的排除在外了。如此一来,你会发现他也被称为“Bernardus van Beurden”(你不必在名字里打点[.],因为点在谷歌搜索里是忽略不计的)现在Get到技巧了吗?不如换个名字,重新按照a,b,c,d的顺序试一遍吧。

2) TA在哪儿?(Where?)

a.使用Topsy的图片搜索功能

10
www.topsy.com找出主人公所在的地点,用三项搜索条件锁定结果:分析他过去一段时间内(2)提到的地方(1),查看别人在Twitter上发的图片(3)。如果你想调查一个特定时间段,在时间菜单里选择“特定时段”(Specific Range)就可以了。

b.使用Echosec

11你可以在Echosec上免费搜索社交媒体信息。比如搜索壳牌,我输入了总部地址(1),希望能找到近期(2)在那里工作的人所发的状态(3)。

c.使用谷歌图片搜索功能

把你知道的相关信息浓缩成一个精炼的词。在如下例子中,我想搜一位名叫@ MuhajiriShaam的伊斯兰圣战者(1),但并不想查Twitter(3)上名为@MuhajiriShaam01 (2)的账户。我想查看这个人在2014年9月25日到29日之间在Twitter上发的图片(4)。

12

【想知道最后一个要素:TA在什么时间(做了什么)怎么查?请点击《实用贴:如何用网络搜索搞定新闻要素?》查看吧!

3. 新浪微博检索不够强?社交媒体检索新利器帮你忙:

觉得以上的检索不适合中国?Van Ess推荐了数个社交媒体信息检索的好工具,匹配新浪微博,地图语言也显示中文哦:

利器1:网站Geofeedia

Geofeedia是社交媒体监控网站,其特殊之处在于,除主流英文媒体外,它还监控了新浪微博。它以地图界面取代了微博精确度不强的条件框检索。

12.5

在右上角的搜索栏(search)中输入地名(中英文皆可,可具体到街道名,也可输入城市名),回车搜索,就能自动跳转到搜索地点。右方的放大缩小工具可用于调整地图比例。

12
中间的圆圈表示选择地区范围,也可以选用右上角的四边形工具,自定边界。同时在右边可自定想要搜索的社交媒体类型(这里我们选择微博),点击区域中心方块内的放大镜图案,搜索就开始了。

这里,我们搜索了北京城区及周边区域,发现这个区域内过去一个月左右时间内产生过12.2万条微博。点击上方标签中的“拼贴(collage)”,可以看到由近及远排列的微博具体内容、发布者以及发布时间。找到你关心的话题,点击发布者名字,就能进入他的微博主页。

13
不需要看具体内容,只想知道整体趋势,可点击标签栏第三位的“分析(Analytics)”,就会出现微博和用户的总数、平均数统计,甚至还有关键词和最常发布的用户排名。美中不足的是关键词没能采用中文分词技术,只能出现中文单字,不具参考价值——建议结合微博官方的微数据使用,效果更佳。

14
Geofeedia还有一些功能,如日期选择、关键词存储、用户名存储等。

其他值得发掘的应用功能还包括搜索突发事件目击者、获取丰富实时信息、联系遥远国家特定地区的公民、分析特定地区社交媒体发布趋势等。不过,它是一个收费网站,可以申请试用,但想持续使用还需付费。

不过别担心,Van Ess还推荐了另一件免费的利器。

利器2:网站Echosec

Echosec的使用方法和功能与Geofeedia类似,均采用地图和搜索。

比起Geofeedia,它的优势在于地图语言显示为中文,更便于确定地点。

13
目前,其免费版本可追踪推特和Flicker,使用新浪微博则需要注册。

此外,还有免费搜索网站Yomapic.com和手机应用Banjo也是检索信息的好工具。若想了解详情,请点击《网络搜素专家:有了这些网站,在中国做调查报道会更容易》查看吧!

4. 网络搜索神器:查域名、爬网页、验社交媒体

除了搜索引擎和社交媒体检索平台,BBC互联网研究专家、搜索大牛Paul Myers还祭出IP搜索等多功能神器,让你分分钟get“人肉”搜索技能。

1)搜索电话IP:Aql.com

谁在发送大量垃圾短信?骚扰电话又是从哪里打过来的?别急,Aql.com帮你忙。该网站专供搜索电话IP所属地、供应商信息和目前位置、地区编号、连接网络的名称,甚至还有最近改变网络的日期等。只要按格式输入电话号码,以上信息一键搞定。此外,如果想查找与Skype相关的信息,用SkypeGrab就能得到打出Skype电话的IP地址。

16

2) 查找相似域名:TCPIPUTILS.com

主要用于查找与目标网址相类似的域名。例如,小编键入“全球深度报道网”的网址(cn.gijn.org),马上找到了21个类似的域名,包括gijn.cn,gijn.com,gijn.net等等。如果试试中国银行的网站“www.boc.cn”,出来的域名更多达50个,不乏混淆视听的boc.co.kr和bo.co.uk,,它们并不是中银在韩国或者英国的分网站,而全都是美国一个IP造出来的虚假地址。拿其他网站来试试吧,不光是域名,ipv4、ipv6、网络供应商ip和所在地的信息也一查俱全,还可以单独点开域名,看看它有没有包含在DMOZ这样的公共网页目录里面。这样大概就能帮你找到那些借着大网站名头行诈骗之实的钓鱼网站了。

17

3)搜索网站域名:Domaintools

也是一款功能强大的域名搜索工具。例如,我们在Facebook网站上经常能看到特价皮包销售的网站,例如下图的Loveukbags.com就标明Michael Kors的皮包4折销售,网站的货币单位和.com的后缀都看起来货真价实,而这么诱人的价格到底是真是假呢?让我们用Domaintools来测一测。

18

登录Domaintools查询网络Whois信息,能查出众多含有关键字“bags”的购物网站,例如HandbagsSale.com、ShoesBags.com、PursesHandbags.com 等等,网站www.loveukbags.com上出现的服务邮箱则挂靠在多达2988个域名上,注册商竟是珠海某公司。该公司同时注册了2987个域名,而IP地址则设置在美国亚特兰大以掩人耳目,这足以证明我们要查的是一家虚假购物网站。而从Facebook用户的反馈上也可以看出,这家公司骗人不少。(Domaintools同时还能查询ip、Whois更换,服务器更换等历史信息,功能强大吧。)

Myers推荐的其他类似IP神器还包括Whatismyip.com,能马上检索目标IP所处的国家、城市、城区、邮政编码、网络提供商、时区和经纬度等信息,定位也相当准确。

4)抓取网站信息:Black Widow

想从网站抓取信息但不懂编程?19

5)获取网站后台文件:Pentest Tools

这个工具分为信息收集(Information gathering)、网站应用检测(web application testing)和基础设施检测(infrastructure Testing)三部分。键入要查询的网站域名,就能找到子域名(subdomains),或者下载关于网站服务器、链接漏洞信息(URL Fuzzer)的pdf报告等,甚至可以找到网站背后的文件目录(directory and files),可以知道网站更详细的内容信息。
20
6)搜索相似图片:Fuskr

是Chrome插件,安装之后,右键点击图片,可以找到图片链接背后隐藏的一系列相似图片,支持下载、排除受损照片、重新调整图片大小以适应网页等。
21

7)虚假定位炫地点:Pleasedontstalkme.com

Myers还提供了一个虚假定位的小工具Pleasedontstalkme.com(请不要跟踪我):登录Twitter账户,可以做到想让网友看到自己在哪里发推就在Google Map上点哪个地址,非常逼真。假装自己周游世界技能get!

22

还有三个强大工具可供查看图片元数据、搜索脸书照片、下载视频,欲知详情,请点击《BBC搜索专家:十款强力“人肉”搜索工具》查看相应介绍吧!


5. 核查事实技巧清单:搜索引擎+社交媒体+整合工具一个不能少

掌握了强大的检索工具,核查事实的要领就成为搜索有效与否的关键。网络搜索专家Henk Van Ess以谷歌和推特为例,展示了核查事实过程中常用的一些工具和准则。内地读者可以借鉴他使用搜索引擎和社交媒体的思路,运用到内地常用的工具,如百度和新浪微博,或许会发现新大陆!

22

  • Google/其他搜索引擎:
    1)只看第三方信息:核实网站X时,采用搜索语句“X”+“-”(减号)+ “site:’X.com’”,排除网站本身提供的信息;
    2)从政府网站核实:搜索语句“X”+ “site: Y.gov”;
    3)核实地址信息:进入提供街景的网站,如instantstreetview.com,输入需核实地址,查看图片,并判断是否合理;
    4)查看历史信息:利用谷歌等搜索引擎,搜索特定时间以前的内容,找出信息源头;
    5)核实照片信息:用Picasa等图像工具将彩色照片转成黑白,再上传至谷歌图片,进行搜索,利用得到的图片进行二次搜索,确认图片与描述符合。
  •  Twitter/微博:
    1)核实个人信息:微博认证、私人链接等;
    2)了解其网络聊天对象:利用谷歌高级搜索;
    3)查看其好友圈:进入网站http://moz.com/followerwonk,搜索好友信息;
    4)查看信息发布时间与其所在时区是否吻合;
    5)查看其以前的推特:网站http://topsy.com;
    6)分析其帐号的影响力:网站http://klout.com。
  • 10个核查定事实的小贴士:
    1)找到推特信息源;
    2)判断信息发布者的可信度;
    3)核实背景信息;
    4)不盲从;
    5)核实陌生信息源;
    6)核实图像(最好找到原版);
    7)核实新闻中的具体信息:如地址和时间,对照已知事实;
    8)有照片时,去视频网站查找相关视频;
    9)查找其他人是否证实过信息为假:搜索关键词加“假”、“错误”等字眼;
    10)到实时搜索网站搜一搜。
6. 教皇有个“独裁者”密友?专家:多方搜索+查证破谣言

网络信息又多又杂,核实信息破费功夫,如何快速、有效地验证信息?专家是如何实践刚刚提到的搜索要领的?Henk van Ess以简单几步破除教皇和阿根廷前军事独裁者Jorge Rafael Videla交情不浅的传言。看看他是怎么做的:

2013年3月13号,梵蒂冈选出了他们的新教皇方济各、来自阿根廷的耶稣会士Jorge Mario Bergoglio

23

消息发布仅仅5分钟,《卫报》记者Matt Seaton就在推特上转发一条推文爆料,称新教皇曾纵容甚至支持阿根廷的独裁统治,并引用了《卫报》同行Hugh O’Shaughnessy的文章作证据。

Matt Seaton的这条推文很快被媒体人转发。一小时后,脸书上也出现了许多谴责新教皇的转发帖。两小时后,已有3500人在推特上转发此条消息,包括许多媒体的账号。三小时过去,一些网站诸如Consortiumnews.com出现同主题文章。

而在第一条推文发布3小时59分钟后,一张标题为“教皇方济各,独裁者Videla的亲密伙伴”的照片在推特上出现。图中,疑似教皇者在为阿根廷前军事独裁者Jorge Rafael Videla布施圣餐。它的发布者,是美国著名纪录片导演Michael Moore25

面对汹涌澎湃的网络信息,Henk Van Ess梳理了事件发酵的时间线,并提出问题:作为关注此事的记者,你会选择在什么时间发布该新闻呢?是各大媒体转发推文之后,还是爆料照片出现的时候?

26
他给出的建议是:在确认以下事实之前,不要发布。

1) 消息源是谁?
想在纷扰的传闻中抓住重点,Van Ess做的第一件事就是寻找消息源。首先,他用信息检索网站topsy.com检索流言中重复出现的语句“new pope was an accessory to murder(新教宗是杀戮的同谋者)”,选择“Twitter”作为检索范围,并选择“sort by oldest(最旧)”以寻找最早的推文。
27
另外,他还使用了相似工具backtweets.com,做了同样的检索:

28

所有检索结果都指向《卫报》记者Hugh O’Shaughnessy发布于2011年1月4日的一篇文章:《阿根廷教堂的原罪》(The sins of the Argentinian church)。
29Hugh O’Shaughnessy在文中引用一位阿根廷记者的证词,称在担任耶稣会领袖的1973-1979年间,Bergoglio不仅支持当时由独裁者Jorge Rafael Videla领导的军政府,还对军政府迫害教士的行径保持沉默,甚至卷入两起耶稣会士的绑架案。

2)消息源可靠吗?
Hugh O’Shaughnessy是何许人也?Van Ess在《卫报》官网维基百科上搜索他的信息,发现他是一位获过奖的老记者,报道拉丁美洲超过40年。因此Van Ess认为他的背景是可靠的。
30但这会不会是一个好记者的粗心大意之作呢?Van Ess观察报道页面,发现文章的分类有些奇怪:

31
这篇文章被归在“自由评论(Comment is free)”栏目下。根据栏目介绍,这个栏目提供的不是严肃新闻,而是记者和观察家们发布的洞见。

既然这不是一篇新闻,而只是评论文章,那么其信息准确性就大打折扣了。

3)照片可信吗?

文字信息真假难辨,那么照片总该是真枪实弹吧?Van Ess告诉我们,Michael Moore发布的照片,也不能全盘当真,要核实核实再核实。

Michael Moore对照片的描述是:“新教皇向阿根廷独裁者Jorge Rafael Videla布施圣餐”。对此,Van Ess提出两个疑问,照片上的人是否如描述所言,是教皇和独裁者?照片拍摄的时间和地点又在哪里?

32
若读过Van Ess之前的搜索指南,你大概知道接下去要做什么——通过上载图片进行谷歌图片搜索,但Van Ess说,这样还不够。在图片搜索时,务必注意选择搜索工具中的“自订日期范围”,为照片规定一个时间底线,这样才能找到照片最早发布的平台。

33
Van Ess找到的原始照片来自AFP。照片描述显示,图中接受圣餐的确实是阿根廷的军事独裁领袖Jorge Rafael Videla,时间是1990年12月30日,地点在布宜诺斯艾利斯。然而,描述中没有出现图中牧师的名字,只称其为“当地教堂的一名牧师”。
34
这位牧师是否就是梵蒂冈的新教皇呢?Van Ess找到了问题的突破口——就看教皇1990年的时候是不是身处布宜诺斯艾利斯了。

他找出教皇的简历,发现1987年到1992年间,他曾在距离布宜诺斯艾利斯700公里以外的科尔多瓦市(Córdoba)做牧师,而非照片中所说的布宜诺斯埃利斯当地教堂。

35
严谨起见,我们还不能排除教皇当年心血来潮赶去布宜诺斯埃利斯,做几个月牧师的可能性。

Van Ess采用了另一种核实照片的方法:寻找当年视频。独裁者Videla作为著名人物,必然有留下一些新闻报道和记录。在视频网站YouTube上搜索“Videla Iglesia(“教堂”的西班牙文) 1990”,发现确实有一个当年的视频。

36
视频下方的说明显示,主持仪式的是牧师Carlos Beron,而非教皇方济各。

如果以上证据还没有说服你,那么Van Ess还提供了一种简单的判定方法:图中布施的牧师从外表上看,年纪显然大于受施的Videla。
37

而只要稍解教皇和Videla的生平,就会知道,教皇出生于1936年12月17日,而Videla出生于1925年8月2日,足足比教皇年长11岁。

四、有比你还快的聪明人吗?
在你大费周章地求证时,也许有人早已经证伪了这条消息。这通常是因为他们离信息源更近,或者有语言上的优势。

这个例子里,Van Ess用谷歌简单检索了“Jorge Videla”,就找到了一篇法语文章,显示该照片并非教皇本人。

38

Van Ess的建议是,搜索时还可以加上“骗局”、“错误”、“假消息”等字眼,并尝试使用新闻发生国家的官方语言,那样会更快找到你想要的信息。

只要熟练掌握以上四个步骤,那么在不到30分钟时间内核实一条消息,将会是件非常容易的事。

正是由于记者们的质疑和核实手段之迅速,在爆料出现30个小时之后,最初爆料的《卫报》文章经修改后重新发布,文末注明,原文中提到的“阿根廷记者指控新教皇‘参与过帮助军队藏匿政治犯’的罪名”信息不实,该记者并未作过如此指控。

Van Ess总结说,“谎言重复一千遍就成了真理”,不能因为一个消息被大量转发就盲目相信。网络搜索中最重要的策略,一是找到原始材料,二是核查不同来源信息的匹配程度,三是灵活运用各种搜索工具。在搜索核查中要学会“另辟蹊径”,用多种方法核实,才不至于产生错漏。

还想知道他是如何一小时内通过各种互联网工具找到恐怖分子“圣战约翰”的家人?调查团队Bellingcat是如何以视频记录、网络搜索验证马航MH17是被“山毛榉”(Buk)导弹击落的?请点击左边的链接查看吧!

Print Friendly, PDF & Email

1 thoughts on “2015调查新闻新招:网络搜索技法大全

  1. Simply wish to say your article is as astonishing.
    The clarity on your submit is simply nice and that i could suppose you’re a professional
    on this subject. Well along with your permission allow me to grab your RSS feed to stay up to date with coming
    near near post. Thanks a million and please keep up the
    rewarding work.

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注