如何用大數據調查社交媒體謠言

社交媒體上的謠言總是讓人猝不及防，有些甚至能在短時間造成不小的危害。比如，幾天前（註：1月初），微信怎麼也不會想到，因為一個年終回顧的HTML5頁面被提前泄露，帶來大量用戶點擊導致服務器癱瘓，然後引發了盜號的謠言。最後的結果是，短短的幾個小時內，數百萬人從微信提現，解綁銀行卡。

社交媒體上都流傳着哪些謠言？這些謠言都是誰發布的？為什麼會有人相信並主動參與傳播這些謠言？社交網絡上的信息是海量的，這些問題似乎很難回答。不過最近，清華大學智能技術與系統國家重點實驗室的研究人員借用了自然語言處理的幫助，對新浪微博上的謠言大數據進行了全面的分析，試圖找出答案。

2012年5月，新浪微博設立了舉報處理大廳，謠言佔了不良信息中的一大部分。研究人員利用微博舉報大廳公布的實時數據收集謠言信息。

他們收集了從2011年8月到2015年5月期間出現的9079條謠言，用函數模型對這些數據進行了預處理，發現了一些有趣的現象。

大部分微博謠言會在其發布的一個周內被舉報並闢謠

第一，大多數微博謠言的影響力都比較小，轉發和評論數在500次以下的微博佔到整體的84%。只有極少量的微博謠言具有極廣的傳播範圍和強大的影響力。

第二，謠言通常要傳播一段時間後，才有可能遭到舉報；同時, 由於傳播速度快，大部分微博謠言會在其發布的一個周內被舉報並闢謠 (88.9%)。

第三，大量舉報謠言的用戶，所舉報的謠言往往與自己相關. 例如, 微博用戶 “美汁源飲料” 舉報了大量關於 “美汁源果粒橙” 飲料含有農藥的謠言, 張家界紀委書記汪業元舉報了大量關於 “汪業元發表 ‘對網絡暴民殺無赦’ 的言論” 的謠言。

第四，大量發布謠言的用戶，往往帶有網絡水軍的性質，例如，有微博用戶僅在幾分鐘的時間裡發布了幾十條微博, 其中大部分是謠言, 之後該用戶就再未發過微博。

常識類謠言經常反覆出現轉發高峰

研究人員還根據謠言內容將其分成了5個分類：

政治類謠言，例如釣魚島海域中日兩國爆發海戰；
經濟類謠言，例如三星賠償蘋果幾十車硬幣；
欺詐類謠言，例如“四川藏區兒童需要禦寒冬衣”，然後留下了一個虛假的聯繫電話；
社會生活類謠言，社會各界人物的花邊新聞，例如六小齡童去世；
常識類謠言，例如阿司匹林能治療心臟病。

這些謠言中，大部分屬於社會生活類和政治類謠言 (約佔70%)。而結合微博謠言發布、傳播、高峰和消亡的過程還可以發現，不同的謠言出線轉發峰值的情況也各部相同。

70%的謠言話題只有一個較大轉發峰值，也就是說，被闢謠後，它們就會逐漸消亡。

另外，謠言的內容也和其轉發峰值有關係：例如，常識類謠言由於受眾廣，闢謠難度較大，往往會反覆被人們提及，出現多次爆發，約70%的常識類謠言通常有多個轉發峰值。而關於名人或知名機構的謠言，由於關注人數眾多，闢謠難度較小，因此發布之初就會出現較大轉發峰值，但很快會被闢謠，約60%的此類謠言會在一個周內消亡。

人們為什麼相信謠言

人們為什麼會相信這些謠言呢？研究人員分析後將原因歸結為兩類：（1）知識受限，即缺乏專業知識而導致誤信或無法辨認的謠言。例如，阿司匹林可以治療急性心臟病；

（2）時空受限謠言，即由於地域和時間限制無法辨認的謠言。例如, 有謠言稱 “杭州上城區一婦女喝了3罐可樂，兩天後離開了這個世界。驗屍結果是她死於細螺旋體病, 發病原因是直接用嘴對可樂罐飲用”。

自動闢謠框架

在對謠言進行分析之後，研究人員還試圖建立一個自動闢謠機制。當然，在目前的技術條件下，自然語言處理技術還無法根據微博內容自動判斷其是否為謠言。所以，研究人員的思路通過語義分析，自動根據謠言主題對其進行分類，然後發現最有可能判定該謠言的專家，推薦專家對疑似謠言進行鑒別。

研究人員的框架主要包括3個階段的工作：

1. 謠言發布早期，通過用戶舉報和對可疑用戶的監控建立疑似謠言的集合。一方面，將疑似謠言和謠言庫中進行比對；另一方面, 對於在謠言庫中沒有匹配內容的謠言，通過查詢該領域的專家庫，推薦若干專家對該疑似謠言進行鑒別。

2. 謠言發布中期，通過自然語言處理技術分析疑似謠言的評論信息，通過社會網絡分析技術分析疑似謠言的傳播模式，判定該信息是否為謠言。

3. 謠言發布後期，對於判定為謠言的信息, 將其加入謠言庫；對信息發布人進行可信性分析，確定其信用等級，將信用等級低於一定閾值的用戶加入可疑用戶庫，在一段時間內對其發布的微博內容進行監控；對信息舉報人和評論人進行專家發現，充實和更新該信息相關的知識領域的專家庫。

當然，目前這一切還處於理論研究階段，而建立可以用戶庫也需要以網站更嚴格地執行實名製為前提。用大數據、人工智能去對付謠言，前提是需要很多人交出更多的隱私，你願意嗎？

以上文章引用自論文《中文社交媒體謠言統計語義分析》
更多詳情請閱原文：劉知遠, 張樂, 塗存超, 孫茂松. 中文社交媒體謠言統計語義分析. 中國科學信息科學, 2015, 45(12): 1536-1546.

因為盜號謠言，1月10日晚有上百萬人從微信提現、解綁銀行卡
點擊此處，可以了解更多

全球深度報道網經授權轉載自PingWest中文網（微博ID：wepingwest）
作者：蔣鴻昌
微信原文：《清華大學用大數據分析了9000條微博謠言，還在自動闢謠》

深度網編輯/周煒樂

全球深度報道網 -

PingWest

如何用大數據調查社交媒體謠言

By 蔣鴻昌 | February 25, 2016

發表回復取消回復

發表回復 取消回復

發表回復取消回復