欢迎来到 GIJN 的“工具箱”专栏,在这里我们为调查记者提供最新的技巧和工具。本期,我们将探索可以用来查找“用户生成内容”(UGC)──如视频或照片等任何类型的内容──的不同工具。我们会介绍如何使用 CrowdTangle 和 Echosec 来查找 Twitter、Facebook和Reddit 等网站上的内容;尽管 Facebook 已在2019年6月禁用图谱搜索(Graph Search),使得调查记者们更难找到他们想要的内容,我们也会介绍其他能用来挖掘 Facebook 上信息的工具。
CrowdTangle:找出 UGC 的历史纪录
我们先来看看记者可以用来查找社交媒体上的热门内容的工具。假如记者想找一些被广泛传播的内容,用来研究 Facebook 上的虚假信息,他们可能会想看看 BuzzSumo 或是 Facebook 旗下的 CrowdTangle 。这些工具可以让用户看到一些在社交媒体上分享数及互动度最高的内容,也可以看到详细的分享数据,来识别相关的 Facebook 专页、 Twitter 帐户等。
让我们深入了解一下 CrowdTangle ,这是“一款 Facebook 的公开内容数据洞察工具,能让您轻松追踪、分析并汇报社群媒体公开内容的最新动向”。 CrowdTangle 有一个免费的Google Chrome 扩展程序,所有人都能使用,但功能有限。它的核心是一个平台,能让用户查询包含 Facebook 公开专页、社团以及 Instagram 帐户等数据。如果你目前还未取得访问权限,那就很难拿到了——该网站提醒,团队“只能接纳有限的新合作伙伴”。但是对于那些已经拥有权限、或是想更了解这个工具如何运作的人,我们来看看这个平台的基本介绍,以及如何使用它来搜索 UGC 内容。
首先需要注意的是,不是所有 Facebook 和 Instagram 的所有公开帐户都一定在 CrowdTangle 的平台上。 CrowdTangle 的学术研究主管 Naomi Shiffman 表示,它只会自动纳入拥有10万以上的赞数、追踪者或成员的专页或社团──除了美国的公开社团之外,它们只需要有2000名成员就能被自动加入资料库。此外,平台也会自动纳入所有拥有7.5万以上粉丝的 Instagram 页面,以及所有经过验证的 Facebook 与 Instagram 公开帐户。不过,用户也可以手动添加任一 Facebook 的公开页面或群组,以及 Instagram 帐户,无论它们的赞数或追踪数有多少。
CrowdTangle 也可以搜索 Reddit 和 Twitter,但相较之下,我更喜欢使用 Echosec ,或是比这两个更好的选项──使用开源编码工具,如 TWINT 或 RStudio 的 rtweet 软件包。为什么呢?因为你知道你得到的是未经第三方商业厂商过滤的原始资料。(关于如何使用 rtweet 抓取 Twitter 资料的教程,请参见密苏里大学的 Michael W. Kearney 的这个研讨会)。
了解 CrowdTangle 后,让我们来看看如何使用它吧。
假设我对过去12个月内发布在 Facebook 页面或社团上有关叙利亚的 UGC 特别感兴趣。我们可以如下图这样做:
但是假设我想弄清楚这条特定的内容是在何时首次发布到 Facebook 上,我可能想知道谁是原作者、以及谁决定分享它,那我们可以先从检视一则 UGC 的历史资料开始。
您可以将一则帖子的历史资料下载到一个. csv文件中:要下载档案,请按一 CrowdTangle 帖子框右上角的下拉箭头,然后选择“下载CSV”。
然后,您可以使用这项信息来判断 CrowdTangle 为该内容挑选的所有历史轨迹。
需要注意的是,历史资料的纪录起始点为 CrowdTangle 第一次将该帖子纳入资料库时,而非帖子第一次发布在 Facebook 时。
这可能有助于判断一段内容的出处。提醒一下:CrowdTangle 不能明确告诉你一则 UGC 内容究竟是从哪来的,但它可以引导你找到正确方向来确定其出处,也能针对它如何开始在社交媒体上传播提供不错的信息。
进一步的追踪报道或许也能够确定某内容的来源(其他工具包括我们将在下面介绍的免费开源工具,以及加拿大记者与假信息专家克雷格·西尔弗曼(Craig Silverman)为 GIJN 撰写的一篇文章中提过的 Hoaxy)。
在 Facebook 上寻找被埋没的 UGC
在某些调查中,记者试图搜寻的并不是被广泛分享的热门内容。事实上,他们想找的可能正好相反:是那些被埋藏在社交媒体平台中并被遗忘的内容,正等着被找出以用于究责。
例如,如果记者试图核实一场外交冲突中的空袭事件,他们可能想找那些没有被广泛分享或浏览的 UGC 。在这种情况下,像 CrowdTangle 这样的工具不会有太大帮助,因为我们找的不是互动度高的内容。在过去,当搜索特定的脸书内容时,你可以使用基于图谱搜索(Graph Search)的工具——比如 Who Posted What?、graph.tips,或 Intelligence X 的 Facebook Graph Searcher———这些工具可以控制 Facebook 的 URL 结构,以找到符合特定参数的内容。
不过,令调查人员非常懊恼的是,Facebook在2019年禁用了对其进行图谱搜索的权限,使许多过往的搜索功能无法运行。但我们仍然可以做些尝试。我们建议使用下面介绍的工具作为跳板,然后使用原生的 Facebook 搜索平台——或者我们下面介绍的 Google dorking——来做后续搜索。切记,Facebook 的搜索平台远非完美;它不一定会显示您的搜索条件中的每个结果。这使得在调查特定事件或个人时,很难找到您的目标资料。
在旧的 Facebook URL 结构中,您可以只使用图谱搜索来创建整个特定的搜索。现在没法这样了,你得再努力挖掘才能找到你要找的东西。同样重要的是, Facebook 的演算法会优先呈现它认为您正在寻找的结果,因此请记住,您可能必须不断浏览并尝试不同的搜索组合,最后才能找到与您的调查相关的内容。
Who Posted What? 是能让用户找出 Facebook ID 的一个免费的工具,接著你可以用它在 graph.tips 上搜索特定用户的帖子和照片。Who Posted What? 还能让用户在某一天、某一月或某一年搜索关于特定关键字的帖子。比方说,我试图找2017年4月9日在叙利亚伊德利卜省萨明发生的空袭事件的信息,我会将发生空袭的城镇的阿拉伯名称输入 Who Posted What?,在空袭那天搜寻这个关键字。
这是 Facebook 回传的结果。我找到了一些可能与我的查询相关的帖子(以红圈标示),等待进一步查证:
尽管 Facebook 已经删除图谱搜索功能,还是有方法能找到您想要的 UGC 内容,你可以用开放的工具,如上面列出的那些,或是使用付费工具,如 Echosec、X1 Social Discovery 和 Samdesk,但可能会花你不少钱。
另一个技巧是使用进阶版的 Google 搜索——有时被称为 Google dorking。无论在 GIJN 的网站上还是在其他地方, Google dorking 都被广泛报道过,所以我们在这里不做详细介绍。但是使用 Google 搜索 Facebook 的内容可能比使用 Facebook 自己的搜寻功能更有效。
快速举一个例子,我用 Google dork 搜索了2020年8月威斯康星州基诺沙市抗议行动的 Facebook帖子,以下是我的搜索指令:
site:facebook.com protest AND kenosha -news
指令 site:facebook.com
将搜索范围缩小至 Facebook网站上 。我的关键字 protest AND kenosha
则确保这两个词都出现在帖子文本中,再用 -news
排除了 news 这个词。我想把新闻报道排除,因为我只想看到一般大众的原创帖子,而不是记者的。虽然搜索结果中仍包含一些新闻机构,但是我已经能过滤掉许多我不想要的帖子。
请注意,我还用日期限缩了搜索结果。我只想找从8月煽动事件发生那天开始到月底所发布的内容。您可以按一下“工具”并选择“任何时间”下拉式功能表来创建日期筛选条件,然后按一下“自订范围…”设定你的开始和结束日期。
Echosec: 搜寻 UGC 的强大平台
Echosec 是一款付费工具,它可以从社交媒体网站如 Twitter、YouTube、Reddit、Medium、Gab、Discord、4chan,以及俄罗斯社交媒体网站如 VK (VKontakte)和OK (Odnoklassniki)等提取信息。设定一个目标地区(AOI),您就可以搜索被标记在某个特定区域内的帖子。用户可以用鼠标在地图上画出自己想要的目标区域,或者在搜索框中输入位置。
比方说,我想找到与华盛顿特区 6月1日事件有关的视频。在该事件中,抗议者在圣约翰教堂和拉斐特广场之间的广场上被催泪瓦斯驱散,以便让时任美国总统特朗普经过该区域并拍照。
我在地图上圈出了我感兴趣的区域,然后添加关键字“特朗普”,并添加一个时间筛选条件,因为我只想要6月1日或更晚的帖子。以下是 Echosec 找到的:
结果有许多笔,让我们深入到拉斐特广场周围的特定区域。看来 Echosec 在该地区发现了至少10个不同的 YouTube 视频。
这是 Echosec 找到的其中一个视频范例:
记者可以使用这个工具来查找视频或照片等内容,然后他们可以对这些内容进行地理定位和时间定位,来验证视频是否确实是在声称的时间和地点拍摄的。这是验证线上发布的照片或视频的第一步。有关如何验证 UGC 的更多技巧,请参考 First Draft 的基础和进阶培训课程,First Draft 是一个致力于打击假信息的非营利组织。
Echosec 的定价取决于各种因素,具体要视乎客户有什么需求。Echosec 过去曾与新闻机构合作,如 GIJN 成员的 Bellingcat;您可以在此向其销售团队预约产品演示。此外,其用户可以免费参加 Echosec 的基础培训课程。
Brian Perlman 是 GIJN 的助理编辑。他擅长使用先进的数字鉴识、资料科学和开源技术进行相关研究。他毕业于加州大学伯克利分校新闻研究所,曾任伯克利法学院人权中心经理。