第一篇關於中國疫苗問題的數據新聞是如何出爐的

Print More

上周末,有關疫苗的話題幾乎佔據了所有社交媒體的注意力。網易數讀做了第一篇通過數據新聞呈現中國疫苗問題的文章。通過梳理近五年來引發公眾疫苗恐慌的事件,以及近五年來涉及人用疫苗的刑事和民事判決書,新聞發現:疫苗問題是中國社會的一個周期性問題,背後與不合法的疫苗採購密切相關。

在這篇文章里,一共有7張可視化圖表,涵蓋了引發公眾疫苗恐慌的事件時間軸、主要疫苗的異常反應報告發生率、第一類和第二類疫苗有哪些、涉及人用疫苗的刑事犯罪有多少以及人用疫苗在民事案件中的情況是如何這些要點。

具體可以點擊這裡閱讀。以下是該報道的作者詳細介紹報道製作過程。


7月15號晚上有世界盃決賽,很多人在看球,也包括從不關心各類球賽的我,因為網易傳媒的HR發郵件說了,法國隊奪冠公司就放假一天。開場第18分鐘,克羅地亞隊員自擺烏龍送出一球,法國隊1:0領先。

近乎同時,編輯老師在選題群里發了條新聞截圖——《長春企業狂犬病疫苗生產信息造假,葯監局責令停產》,覺得這是一個值得跟的題。在21號前,這件事並沒有引起太多人關注。因為曾做過狂犬病疫苗的數據新聞,我被安排跟進這個選題。

相較於其他的新聞類型,數據新聞的一個特點就是能把問題量化。不管是金錢的流向,還是位置的移動,甚至桌上吃什麼,只要每一筆、每一次、每一頓都有結構化的記錄,就能分析出點門道來。數據新聞中的“數據”二字絕不單單是“數字”(number)的意思。

為了理清疫苗在中國到底有什麼問題,首先想到的是新聞報道。通過檢索慧科新聞數據庫(一個搜集了各類媒體報道的新聞數據庫)中近十年所有標題含有”疫苗“兩字的報刊新聞,我梳理了所有涉及疫苗問題的報道。

這件事做了兩天,從19號到20號,最直觀的感受就是難受,因為看到:

2010年,王克勤的《山西疫苗亂象》引發巨大反響,媒體鋪天蓋地報道“山西疫苗案”;2014年,不斷有嬰兒接種乙肝疫苗後死亡,媒體鋪天蓋地報道“乙肝疫苗疑似致人死亡”;2016年,一篇名為《疫苗之殤》的文章刷爆朋友圈,媒體鋪天蓋地地報道“山東疫苗案”。

此外,還有各地報紙零零散散的疫苗問題報道。

所以21號疫苗文章刷屏時,沒有驚訝,現在是歷史的翻版。

不過,僅僅梳理新聞報道是難以呈現疫苗問題全貌的,因為報道的最低標準是只用告訴我們發生了一件疫苗安全事件,至於注射的是什麼疫苗,是否真是偶合症,是否有公職人員犯罪等,在不同報道中詳略不一,有的報道事無巨細,有的報道隻字不提。

這時能夠想到的資源就是判決書。法院的判決書不僅提供了刑事、民事等案件的詳細內容,而且信息結構固定,方便分析。更關鍵的是,判決書容易獲取。根據相關規定,除特殊情形外,發生法律效力的判決書均要在互聯網公布。

判決書能被方便查閱,和近十年來政府推行的信息公開一樣,都是助推數據新聞發展的條件之一。很多數據新聞的數據都是來源於政府等國家機關公開的資料,這在全球也是一個趨勢。

各級法院在相應網站上都會公布自己的裁判文書,而中國裁判文書網(https://wenshu.court.gov.cn/)便是最高法匯總裁判文書的地方。從2014年至今,提及“疫苗”二字的刑事、民事判決書共有8000多條,因為手動整理緩慢,網易數讀的另一位同學負責用Python爬取。

在互聯網中沉澱着海量數據,《經濟學人》把它們稱為數字時代的石油,對數字編輯而言,如果搜集起來加以分析,將會得出很多有價值或有趣的結論。網易數讀曾發過一篇《分析了300萬字文本後,我們終於知道了什麼是直男癌》(http://data.163.com/17/0830/19/CT43NV6M000181IU.html),就是基於微博、知乎、豆瓣、虎撲這些社交平台的文章和帖子。而Python這類靈活的工具能節省很多獲取或清洗數據的時間。

新聞網站Propublic的那篇有名的數據新聞《給醫生的美元(Dollars for Docs)》數據就是搜集自葯企網站(美國《平價醫療法案(ACA)》規定醫藥企業必須披露因推銷式談話、諮詢等而給醫生、牙醫等的費用)。搜集來的PDF文件頁數有17320頁,網站則有243034頁,合起來有1099377條記錄。要是一個人來手動複製黏貼整理這些記錄,要一年半的時間,所以他們就寫了個程序,批量化地完成了整理數據這件事——當然,整個過程中,依然需要很多人工的核查和清理。

不巧的是,文書網承載的訪問量過大,網站頻繁出現503錯誤,同學表示:“爬蟲也拯救不了網站崩潰”。為了趕上發稿日期(原定是24號,被提前到22號,搜集文書數據時已是20號晚上),我轉向了OpenLaw裁判文書檢索網站

OpenLaw 是一個面向律師、法官、檢察官、法學教師、學者、學生以及從事法律相關的工作人員的 NGO 開放型組織,2014年成立於上海。它的檢索系統匯總了來自全國法院依法公開的判例,裁判文書的數量甚至略多於中國裁判文書網的。同時,它的服務器穩定,反應速度快。更重要的是,網站提供判決書的導出,有 PDF 和 xlsx 兩種格式可選,減輕了我搜集數據的負擔。

搜集完數據後的下一步就是清洗數據。從 OpenLaw 上導出的2014年至今提到“疫苗”二字的刑事判決書有995份,民事判決書有7000份(從2014年起是因為在這之前的判決書在網絡上並不完整)。剔除與疫苗問題無關的判決書後,得到了408份刑事判決書和78份民事判決書。最後,通過分類匯總,得到了各個維度的數據。

通過分析刑事判決書,基層公職人員受賄是造成問題疫苗的一個重要原因,而通過可視化這一步驟,能將分析結果更直觀地展現出來,可能這也是數據新聞最能吸引讀者在屏幕上停留一會的地方。

在新聞專業的理論課上,老師都會被強調新聞要講客觀性,但我們都知道這是夸父追日,所以有“只可無限接近卻永遠無法達到”一說。而數據新聞能讓我們離客觀更進一步。與傳統新聞常常靠例證法來證明觀點不同,數據新聞常常是全舉,把所有的情況都列舉出來,讓讀者看到事件的全貌。

這方面,國外的數據新聞已有非常多的經典案例。比如《華盛頓郵報》所做的有關警察槍殺平民的數據新聞《995 people shot dead by police in 2015》

美國警察槍殺平民的事件時有發生,這很有可能與官方懲罰不力有關。為了證明,《郵報》記者建了數據庫,整合了2015年以來所有美國警察槍殺平民的案件,包括被害者的種族、是否攜帶武器等信息。然後,他們從典型案例切入,再通過數據呈現問題的全貌,準確且深入。如今,這份數據庫已更新到了2018年。

當疫苗事件的討論焦點轉移到調查記者缺失時,我沒想太多,畢竟是往日榮光。但在當下,僅僅是數據新聞領域,我就知道有很多優秀的記者正在推動它。

6月,在由全球編輯網絡(GEN)主辦的2018年數據新聞獎(Data Journalism Awards)上,財新數據新聞中心拿到了“最佳大型數據新聞團隊獎”,如果看到和它一起被提名的媒體有哪些,就會明白這是件多麼令人激動的事。

7月,澎湃新聞上線了湃客頻道,其中一個名為【有數】的欄目彙集了眾多數據新聞創作者。

細翻當中的作品,有很多的選題和操作都非常棒。其中,可能有些作者並非新聞專業出身,甚至都不是文科專業。數據新聞領域吸納了很多非新聞專業的人。我所實習的網易數讀欄目,有二十幾名寫稿實習生,其中不到三分之一的人是新聞專業,其他的有計算機專業,還有社會學、經濟統計、公共管理、地理國情監測等等,我不知道其他新聞欄目的人群畫像,但我猜數據新聞一定是專業背景最豐富的一種。

中國的數據新聞有着巨大的探索價值。以這次疫苗事件為例,如果建立起疫苗事故的數據庫,通過記錄每一起疫苗事故的涉事企業、疫苗批次、最終調查結果等,就能分析出不安全因素。

五年前,數據新聞在中國可能還僅僅代表着好看的花哨圖表。但現在,走向更紮實作品的變化正在發生。

 

本文首刊於微信公號“新聞實驗室(newslab)”,經授權轉載。

 

相關閱讀:

全球調查記者的鬥爭:2017全球深度報道精選

媒體追蹤於歡案,如何利用網上法院判決書揭露真相? 

報道亞洲 |如何科學質疑“健康專家”?前世衛發言人為你分享技巧

 

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註