
2019年9月26日,第十一屆全球深度報道大會在德國漢堡開幕。圖:Nina Weymann
9月底的德國漢堡,總是飄着小雨。為期四天的全球深度報道大會(GIJC)結束了。每天早上9點「上課」,下午5點「下課」,主題從數據新聞到媒體可持續發展,從如何進行深度調查到對抗假新聞,涵蓋了幾乎所有深度報道的可能性。來自130多個國家,1700多名新聞工作者、研究者在大會會場進進出出,各種精彩的課程讓人應接不暇。
作為一名數據編輯,我深知在中國找數據不是一件容易的差事,因為很多公開的數據可能要麼缺失,要麼格式混亂。因此,這次參會的目的之一是,是想弄明白如何在沒有現成數據庫的情況下,記者應該如何自己收集和創建數據庫?
方法之一就是進行眾包。
「眾包」(Crowdsourcing)起初是一個互聯網概念。簡單解釋就是,將一個項目分給一群人做,每個人做一點。最常見的大概就是Google 的登錄驗證器,比如選擇圖中可見的紅綠燈、車輛等等。每個用戶登錄時識別一次,將這些識別數據匯聚起來,就會得到一個巨大的數據集,Google 就可以用它們來訓練自己的人工智能。
在新聞行業,尤其是在數據新聞領域,眾包新聞也是一種常用的方法。因為數據新聞的選題基礎是數據,但記者又不一定能常常找到令人滿意的數據庫。這種情況下,如果每個讀者都能提供一些信息,那這些信息彙集起來,就會成為一個有價值的數據庫。
在我看來,眾包新聞主要有兩種,一種是收集故事,另一種是收集信息。
第一種的重點在於個人經歷。比如,ProPublica 和 NPR 曾於2017年合作發表過一篇關於產婦去世的報道。產婦死亡率看起來只是幾個數字,但背後卻是許多家庭的眼淚和辛酸。當記者想挖出更多細節的數據時,卻發現沒有人在做記錄。因此,他們採用了眾包的方式,通過社交媒體、眾籌網站找到潛在的受影響家庭,並投遞調查問卷。隨後,他們將收回的問卷和公開訃告交叉比對,最終確認了至少450例產婦死亡案例。

ProPublica 和 NPR 在2017年合作發表過的關於產婦去世的報道。
偏軟的選題也可以使用這個方法。比如《紐約》雜誌曾經製作過一篇紐約愛情地圖,讀者可以提交自己在這個城市裡經歷過的愛情故事:第一次相遇在哪個酒吧、第一次約會在哪家飯店等等。

《紐約》雜誌製作的紐約愛情地圖。
國內的澎湃新聞也在去年做了一個類似的眾包項目,收集汶川地震的記憶。用戶參與這個項目的方法很簡單:點開鏈接,簡要填寫自己的信息,再留下故事即可。如果沒什麼想寫的,也可以直接瀏覽別人的故事。另外,讀者也可以一鍵在朋友圈分享自己看到的感人故事——同時吸引更多人來填寫自己的經歷。

澎湃新聞製作的信息眾包項目「我的汶川記憶」
汶川這個項目一共收到了1857篇故事。之所以能收集到這麼多記憶,主要原因可能有兩個。第一,是剛好遇上汶川地震十周年的紀念;第二,當時這個項目的鏈接出現在澎湃網站和客戶端的各個地方,讀者很容易接觸到。相關的人物特稿結尾也會附上項目入口鏈接。讀者在讀完別人的故事後,會更願意分享自己的故事。
另一種眾包的方式側重於收集客觀信息。和第一種不同,這種項目收集到的信息,編輯部必須重複核查、確保準確和真實。核實並不是容易的活,尤其是在本來就沒有公開數據庫的情況下,因此信息眾包比故事眾包的難度要更高。
不過,經過這次大會上數據新聞記者 Kavya Sukumar 的“調查報道背後的眾包項目”一課,讓我明白信息眾包的難點還不僅僅在核實上,整個項目的設計都需要下更大的功夫,並不是單單一張調查問卷就能完事的。Sukumar是一名活躍在新聞行業的工程師,她以自己在Vox參與過的一次調查報道為例,給我們講解了眾包項目的設計思路。
Vox在 2017-2018 年間發表了一系列關於醫院急診室費用的調查報道。這個選題的靈感來自一封讀者郵件。這名讀者抱怨自己因為一次急症治療花了近千美元,而整個治療內容就是在嬰兒腳上貼了個創可貼,全程僅29分鐘。

Vox 在2017-2018年間發表了一系列關於醫院急診室費用的調查報道。
隨後記者發現,根據美國法律,醫院不能立刻告訴患者急症室的醫療費是多少,因為擔心患者會為了高昂的醫療費而放棄治療。但這帶來的另一個問題就是,醫院想開多少錢的賬單都行。
Vox 的記者們認為,因為這樣的一條法規存在,遇到類似問題的家庭肯定不只一個。然而,沒有一個現成的急症醫療費數據庫能夠回答這個問題。思考再三,他們決定創建一個眾包項目,以照片的形式來收集遭遇類似情況的讀者的急症室醫療賬單。
讓讀者直接提交賬單照片,我覺得是很聰明的一個做法,因為這樣可以確保信息的真實性。如果只是讓讀者填寫幾個數字,那姑且不說故意亂填的,哪怕是不小心輸錯的也很難被發現。
但是,這隨之而來的更重要的問題就是,你怎麼能獲得讀者的信任,讓他們願意把醫療賬單拍給你?Sukumar 分享了三個貼士。
第一,在收集讀者信息時,需要明確說明你需要的信息是什麼,讓讀者把不需要的部分遮蓋起來。
在設計提交信息頁面前,Sukumar團隊已經試讀過多種類型的醫療賬單,總結出了不同的醫療賬單的信息點位置。據此,他們撰寫了一份完整的操作指南,根據這份指南,讀者很快就能找到必要信息的位置,再遮蓋住其它部分,拍照提交即可。
為了確保讀者的安全感,收集信息的界面最好還能強調對用戶隱私的重視,例如說明一旦離開了提交信息的界面/App,就不會再繼續跟蹤用戶的行為。
第二,製作團隊本身也要考慮到信息泄露隱患。越少人能接觸到原數據越好,這樣原數據泄露的可能性也就越小。
另外,網絡工具可能也會泄露數據。比方說,假設你用問卷星來收集數據,再用石墨文檔來儲存數據,最後用RAWGraphs來可視化數據,那麼三個工具都可能成為數據泄露的渠道。
為了防止泄露,Sukumar的團隊專門創建了一個App收集數據,以及一個數據庫系統來存儲數據,只有4-5個人擁有密碼。當然,如果你所在的機構沒有這樣的技術團隊,可以考慮用一些安全性比較高的數據庫工具。
第三,不要一味地索取卻不回報,要讓讀者收到反饋。
這一點是我之前沒想到的。一旦操作起長線項目,我的發稿量很長一段時間都會保持在零。那段時間裡,我雖然看起來沒有聲音,其實每天都掙扎在數據庫的海洋里無法自拔。
參與者不知道你在做什麼其實是眾包項目的大忌。如果這個項目長期沒有動靜,前期讀者可能還會有興趣提交信息,但後期大家很快就會喪失參與的動力,也無法有效地吸引到新的讀者加入。
因此,在操作眾包項目時,我們要常常問自己:讀者給了我們數據,我們能給(及時)回報他們什麼?
Vox這個項目的作法是,在收集信息的過程中,如果記者發現了什麼有趣的點,就可以立刻採訪然後出快稿。這樣的話,雖然整個項目時長一年,但隔三差五地就能有新的稿件出來。同時,他們還會鼓勵提交過信息或感興趣的讀者訂閱Newsletter,一旦有什麼新的稿件出來,就會通知他們。這樣的話,讀者就會知道這個項目一直在有序地進行中,時不時會有結果刊出。而且,當這些新聞故事傳播開來時,更多擁有同樣經歷的人們就會主動地加入到這個項目中,提交自己的醫療賬單。
除了主動提交,信息眾包還發展出了更高級的形式。ProPublica在2017年進行過一個眾包計劃,請讀者幫助他們收集 Facebook 的政治廣告以判斷這些廣告的投放是否真的存在偏見。這是要讓讀者一個個截圖自己看到的政治廣告嗎?不,ProPublica為此專門開發了一個chrome插件,安裝後將自動收集讀者 Facebook 上的政治廣告。
在國內,最接近的大概是2017年底北京進行安全隱患清理時,多家媒體和獨立媒體人聯合做的這份北京安全隱患清理整治分布圖。當時由於官方沒有公布”安全隱患“的實際地點,這些媒體遍根據官方網站、媒體報道、網絡圖片等方式整理信息。更重要的是,他們還和志願者合作,收集志願者現場拍攝的照片。最終收集到了北京135處安全隱患清理整治點的有效信息,繪製出了這些地圖。當時文章發表的時候,最下方還留了一個郵箱,鼓勵讀者繼續提供相關信息。
我認為,這類眾包項目在中國之所以很少見,原因可能有兩點。
首先,地方媒體沒有那麼有活力。美國的眾包新聞之所以能形成巨大影響力,離不開地方媒體的支持。ProPublica和Vox兩個都是全國性媒體,發起一個眾包項目,可以通過各個地方報紙、地方廣播,甚至是地方有影響力的媒體人來宣傳項目,吸引讀者參與。如果在中國,一個全國媒體發起一個眾包,除了在自家平台上拚命宣傳,還有什麼別的方法能讓各個地方的讀者知道呢?
另外,讀者習慣不同,對媒體的信任度可能也不太一樣。眾包新聞一般周期較長,短時間內也看不到什麼實際的回報。提供自己的數據給媒體對讀者來說可能是個不對等且存在潛在危險的交換,也不會得到什麼實際好處。所以在進行眾包項目時,媒體應該思考如何讓讀者信任自己,以及如何做好信息安全工作等。
Sukumar在課程結束時還說了一句讓我很有感觸的話,在這裡也分享給大家。她說,千萬不要盲目地開始一個眾包項目,這不是一個「萬金油」。最適合眾包項目的場景就是,「你知道事情一定是這樣的,但你沒有證據。」(something you knew is true, but you don’t have evidence)
附錄:
作者鄒熳雲,澎湃新聞數據記者,她也是第11屆全球深度報道大會獎學金獲得者。