
圖: Pexels
歡迎來到 GIJN 的“工具箱”專欄,在這裡我們為調查記者提供最新的技巧和工具。本期,我們將探索可以用來查找“用戶生成內容”(UGC)──如視頻或照片等任何類型的內容──的不同工具。我們會介紹如何使用 CrowdTangle 和 Echosec 來查找 Twitter、Facebook和Reddit 等網站上的內容;儘管 Facebook 已在2019年6月禁用圖譜搜索(Graph Search),使得調查記者們更難找到他們想要的內容,我們也會介紹其他能用來挖掘 Facebook 上信息的工具。
CrowdTangle:找出 UGC 的歷史紀錄
我們先來看看記者可以用來查找社交媒體上的熱門內容的工具。假如記者想找一些被廣泛傳播的內容,用來研究 Facebook 上的虛假信息,他們可能會想看看 BuzzSumo 或是 Facebook 旗下的 CrowdTangle 。這些工具可以讓用戶看到一些在社交媒體上分享數及互動度最高的內容,也可以看到詳細的分享數據,來識別相關的 Facebook 專頁、 Twitter 帳戶等。
讓我們深入了解一下 CrowdTangle ,這是“一款 Facebook 的公開內容數據洞察工具,能讓您輕鬆追蹤、分析並彙報社群媒體公開內容的最新動向”。 CrowdTangle 有一個免費的Google Chrome 擴展程序,所有人都能使用,但功能有限。它的核心是一個平台,能讓用戶查詢包含 Facebook 公開專頁、社團以及 Instagram 帳戶等數據。如果你目前還未取得訪問權限,那就很難拿到了——該網站提醒,團隊“只能接納有限的新合作夥伴”。但是對於那些已經擁有權限、或是想更了解這個工具如何運作的人,我們來看看這個平台的基本介紹,以及如何使用它來搜索 UGC 內容。
首先需要注意的是,不是所有 Facebook 和 Instagram 的所有公開帳戶都一定在 CrowdTangle 的平台上。 CrowdTangle 的學術研究主管 Naomi Shiffman 表示,它只會自動納入擁有10萬以上的贊數、追蹤者或成員的專頁或社團──除了美國的公開社團之外,它們只需要有2000名成員就能被自動加入資料庫。此外,平台也會自動納入所有擁有7.5萬以上粉絲的 Instagram 頁面,以及所有經過驗證的 Facebook 與 Instagram 公開帳戶。不過,用戶也可以手動添加任一 Facebook 的公開頁面或群組,以及 Instagram 帳戶,無論它們的贊數或追蹤數有多少。
CrowdTangle 也可以搜索 Reddit 和 Twitter,但相較之下,我更喜歡使用 Echosec ,或是比這兩個更好的選項──使用開源編碼工具,如 TWINT 或 RStudio 的 rtweet 軟件包。為什麼呢?因為你知道你得到的是未經第三方商業廠商過濾的原始資料。(關於如何使用 rtweet 抓取 Twitter 資料的教程,請參見密蘇里大學的 Michael W. Kearney 的這個研討會)。
了解 CrowdTangle 後,讓我們來看看如何使用它吧。
假設我對過去12個月內發布在 Facebook 頁面或社團上有關敘利亞的 UGC 特別感興趣。我們可以如下圖這樣做:

圖: CrowdTangle
但是假設我想弄清楚這條特定的內容是在何時首次發布到 Facebook 上,我可能想知道誰是原作者、以及誰決定分享它,那我們可以先從檢視一則 UGC 的歷史資料開始。
您可以將一則帖子的歷史資料下載到一個. csv文件中:要下載檔案,請按一 CrowdTangle 帖子框右上角的下拉箭頭,然後選擇“下載CSV”。

圖: CrowdTangle
然後,您可以使用這項信息來判斷 CrowdTangle 為該內容挑選的所有歷史軌跡。
需要注意的是,歷史資料的紀錄起始點為 CrowdTangle 第一次將該帖子納入資料庫時,而非帖子第一次發布在 Facebook 時。
這可能有助於判斷一段內容的出處。提醒一下:CrowdTangle 不能明確告訴你一則 UGC 內容究竟是從哪來的,但它可以引導你找到正確方向來確定其出處,也能針對它如何開始在社交媒體上傳播提供不錯的信息。
進一步的追蹤報道或許也能夠確定某內容的來源(其他工具包括我們將在下面介紹的免費開源工具,以及加拿大記者與假信息專家克雷格·西爾弗曼(Craig Silverman)為 GIJN 撰寫的一篇文章中提過的 Hoaxy)。
在 Facebook 上尋找被埋沒的 UGC
在某些調查中,記者試圖搜尋的並不是被廣泛分享的熱門內容。事實上,他們想找的可能正好相反:是那些被埋藏在社交媒體平台中並被遺忘的內容,正等着被找出以用於究責。
例如,如果記者試圖核實一場外交衝突中的空襲事件,他們可能想找那些沒有被廣泛分享或瀏覽的 UGC 。在這種情況下,像 CrowdTangle 這樣的工具不會有太大幫助,因為我們找的不是互動度高的內容。在過去,當搜索特定的臉書內容時,你可以使用基於圖譜搜索(Graph Search)的工具——比如 Who Posted What?、graph.tips,或 Intelligence X 的 Facebook Graph Searcher———這些工具可以控制 Facebook 的 URL 結構,以找到符合特定參數的內容。
不過,令調查人員非常懊惱的是,Facebook在2019年禁用了對其進行圖譜搜索的權限,使許多過往的搜索功能無法運行。但我們仍然可以做些嘗試。我們建議使用下面介紹的工具作為跳板,然後使用原生的 Facebook 搜索平台——或者我們下面介紹的 Google dorking——來做後續搜索。切記,Facebook 的搜索平台遠非完美;它不一定會顯示您的搜索條件中的每個結果。這使得在調查特定事件或個人時,很難找到您的目標資料。
在舊的 Facebook URL 結構中,您可以只使用圖譜搜索來創建整個特定的搜索。現在沒法這樣了,你得再努力挖掘才能找到你要找的東西。同樣重要的是, Facebook 的演算法會優先呈現它認為您正在尋找的結果,因此請記住,您可能必須不斷瀏覽並嘗試不同的搜索組合,最後才能找到與您的調查相關的內容。
Who Posted What? 是能讓用戶找出 Facebook ID 的一個免費的工具,接著你可以用它在 graph.tips 上搜索特定用戶的帖子和照片。Who Posted What? 還能讓用戶在某一天、某一月或某一年搜索關於特定關鍵字的帖子。比方說,我試圖找2017年4月9日在敘利亞伊德利卜省薩明發生的空襲事件的信息,我會將發生空襲的城鎮的阿拉伯名稱輸入 Who Posted What?,在空襲那天搜尋這個關鍵字。
這是 Facebook 回傳的結果。我找到了一些可能與我的查詢相關的帖子(以紅圈標示),等待進一步查證:
儘管 Facebook 已經刪除圖譜搜索功能,還是有方法能找到您想要的 UGC 內容,你可以用開放的工具,如上面列出的那些,或是使用付費工具,如 Echosec、X1 Social Discovery 和 Samdesk,但可能會花你不少錢。

圖: Whopostedwhat.com
另一個技巧是使用進階版的 Google 搜索——有時被稱為 Google dorking。無論在 GIJN 的網站上還是在其他地方, Google dorking 都被廣泛報道過,所以我們在這裡不做詳細介紹。但是使用 Google 搜索 Facebook 的內容可能比使用 Facebook 自己的搜尋功能更有效。
快速舉一個例子,我用 Google dork 搜索了2020年8月威斯康星州基諾沙市抗議行動的 Facebook帖子,以下是我的搜索指令:
site:facebook.com protest AND kenosha -news
指令 site:facebook.com
將搜索範圍縮小至 Facebook網站上 。我的關鍵字 protest AND kenosha
則確保這兩個詞都出現在帖子文本中,再用 -news
排除了 news 這個詞。我想把新聞報道排除,因為我只想看到一般大眾的原創帖子,而不是記者的。雖然搜索結果中仍包含一些新聞機構,但是我已經能過濾掉許多我不想要的帖子。
請注意,我還用日期限縮了搜索結果。我只想找從8月煽動事件發生那天開始到月底所發布的內容。您可以按一下“工具”並選擇“任何時間”下拉式功能表來創建日期篩選條件,然後按一下“自訂範圍…”設定你的開始和結束日期。
Echosec: 搜尋 UGC 的強大平台
Echosec 是一款付費工具,它可以從社交媒體網站如 Twitter、YouTube、Reddit、Medium、Gab、Discord、4chan,以及俄羅斯社交媒體網站如 VK (VKontakte)和OK (Odnoklassniki)等提取信息。設定一個目標地區(AOI),您就可以搜索被標記在某個特定區域內的帖子。用戶可以用鼠標在地圖上畫出自己想要的目標區域,或者在搜索框中輸入位置。
比方說,我想找到與華盛頓特區 6月1日事件有關的視頻。在該事件中,抗議者在聖約翰教堂和拉斐特廣場之間的廣場上被催淚瓦斯驅散,以便讓時任美國總統特朗普經過該區域並拍照。
我在地圖上圈出了我感興趣的區域,然後添加關鍵字“特朗普”,並添加一個時間篩選條件,因為我只想要6月1日或更晚的帖子。以下是 Echosec 找到的:

圖: Echosec
結果有許多筆,讓我們深入到拉斐特廣場周圍的特定區域。看來 Echosec 在該地區發現了至少10個不同的 YouTube 視頻。

圖: Echosec
這是 Echosec 找到的其中一個視頻範例:

圖: Echosec
記者可以使用這個工具來查找視頻或照片等內容,然後他們可以對這些內容進行地理定位和時間定位,來驗證視頻是否確實是在聲稱的時間和地點拍攝的。這是驗證線上發布的照片或視頻的第一步。有關如何驗證 UGC 的更多技巧,請參考 First Draft 的基礎和進階培訓課程,First Draft 是一個致力於打擊假信息的非營利組織。
Echosec 的定價取決於各種因素,具體要視乎客戶有什麼需求。Echosec 過去曾與新聞機構合作,如 GIJN 成員的 Bellingcat;您可以在此向其銷售團隊預約產品演示。此外,其用戶可以免費參加 Echosec 的基礎培訓課程。
Brian Perlman 是 GIJN 的助理編輯。他擅長使用先進的數字鑒識、資料科學和開源技術進行相關研究。他畢業於加州大學伯克利分校新聞研究所,曾任伯克利法學院人權中心經理。