全球深度報道網的“每周數據新聞精選”(Top Ten #ddj),將分享由社交網絡程序NodeXL統計得到的最熱門#ddj話題推文。本期精選為你帶來《金融時報》的數據新聞趨勢分析,探究一篇成功的數據報道如何煉成,以及如何用編程與機器學習方法解碼美國國會兩黨的“口水戰”。
Data Driven Journalism: 數據新聞的成功因素
儘管近年來業界對數據新聞的討論從未停止,數據技術和敘事技巧愈發受到重視,但都柏林大學助理教授Beharh Heravi指出,目前對優秀數據新聞所運用的方法與技術進行系統性研究與總結的仍然少之又少。一篇數據報道的質量究竟由哪些因素決定?在其研究中,Heravi改進了從新聞角度研究數據故事的傳統方法,引入對技術元素的考量,分析了全球編輯網絡(Global Editors Network)2013至2016年間44項“數據新聞獎”獲獎報道。
Herati對獲獎報道的目的、交互模式及所運用的數據工具與技術都進行了分類與統計。通過分析報道涉及的工具與技術,Herati發現,數據可視化是最突出、最為獲獎作品所廣泛應用的一項技術。這其中包括對Tableau Public、Javascript、D3.js和Highcahrts等的運用。其餘最“吃香”的技術依次是網頁設計與發布、數據分析、地圖可視化、數據庫、平面編輯與發布、數據與內容管理平台等。
《金融時報》:探索2017數據新聞的發展
數據作為獨家信源的價值正為越來越多記者所認識。而《金融時報》這份數據新聞趨勢報告著重指出,要寫出獨特的故事,僅挖掘人人共享的公開數據庫已遠遠不夠,數字記者應要學會創建自己的數據集,提煉數據的價值。
對此,《金融時報》列舉了三個辦法,並分別以三個案例作了詳細解釋:(1)從頭創建數據集;(2)收集與整理已有的數據集,使其更有價值;以及(3)嘗試使用另類格式及大量的數據。
(1)自己創建數據集
媒體上關於特朗普的報道隨處可見,尤其是他的極端言論。對比之下,希拉里在此方面的態度要謹慎得多。在其《用可視化講述特朗普如何佔據新聞周期》一文中,《華盛頓郵報》利用非營利組織互聯網檔案館(Internet Archive)的網絡爬蟲工具-網站時光機(Wayback Machine),追蹤了谷歌新聞主頁上長達一年多的新聞報道,收集涉及特朗普和希拉里的新聞報道數目作為研究數據。在圖例中,紅、藍色標記分別為特朗普和希拉里的相關報道,而紫色標記為特朗普與希拉里共同出現的文章。
(2)合併數據集
英國《金融時報》的《英國脫歐公投選民年齡分布》一文中,利用英國報業協會的公投結果及英國人口普查數字,將382個選區中的投票率可視化,分析得出投票率與年齡正相關,即年紀越輕,投票率越低。圖中每一個粉紅色的圓圈代表一個選區。有較多青年人口的格拉斯哥,年齡中位數約為36歲,投票率僅約56%,為所有選區中最低。牛津和劍橋則是例外。牛津的年齡中位數略低於30歲,而劍橋略高於30歲,但因這兩個大學城匯聚了積極關注政治的學生,所以投票率都高於70%。
(3)另類數據形式
在《厄爾尼諾對全球糧食產量的影響》中,《金融時報》利用美國國家海洋和大氣局(NOAA)的數據製作動圖,展現2015年至2016年間海平面溫度的異常變化,以此解釋厄爾尼諾現象。
接下來,文章根據日本國家農業環境技術研究所的數據,依次以玉米、小麥、水稻、大豆為對象,在地圖上標出糧食產區受到厄爾尼諾現象的影響。紅色區域為嚴重負面影響,橘黃色區域為不顯著負面影響,淡藍色區域為不顯著正面影響,深藍色區域為顯著正面影響。以下圖為例,可以看出世界上大部分的玉米生產區多多少少受到厄爾尼諾的負面影響。
皮尤研究中心:美國兩黨制下的口水戰
2016年極具爭議的總統大選,使民主和共和兩黨的敵對狀態驟然鮮明。為了解兩黨國會議員言論交鋒的程度,美國調查機構皮尤研究中心一項研究用編程和機器學習(machine learning methods)相結合的方法,分析了由國會議員發布的94,521篇新聞稿和108,235則臉書帖子,包括相關的點贊數、評論數以及分享數。研究結果按照在各種文書提出的場合、主題和議題分類。
研究發現,通常獲得黨派或地區投票越多、越堅定於自身黨派的議員,更容易發表激進言論。並且,在奧巴馬執政期間,民主黨人要比共和黨人較少批評對方。下圖中,紅色標示為共和黨人,藍色標示為民主黨人,圖形表示他們的臉書帖子與新聞稿中表達“反對”(disagreement),“堅決反對”(indignant disagreement)以及“意見一致”(bipartisanship)的比例,在前兩者的比較中,共和黨人表達對民主黨不滿的比例明顯高出很多。
文/梁晨昱
編輯/Ivan Zhai,梁思然
相關閱讀: