人們通常覺得數據新聞從本質上就比其它類型的報道更客觀。數字不會說謊,對吧?
錯了。
和數據打交道時,有太多辦法可以欺騙受眾,甚至誤導自己,這些錯誤甚至可能是無心之失。過去一年研究數據新聞的第一手經驗讓我發現,要犯一些最終導致結論完全歪曲的錯誤實在是太容易了。以下便是過去這一年裡我所遇到的糟糕的數據新聞最常見的四大問題:
1. 缺乏上下文或比例係數
沒有語境的數字是沒有意義的。缺乏背景信息的問題在有關財政支出的新聞中尤其明顯,其它類型的報道中這種錯誤也經常蹦出來。
舉個例子:
“納稅人花費十億美元為非法移民兒童買單”、“福利津貼花掉64億英鎊”——這些天文數字組成的標題聽上去讓人憤慨不已。但事實是,公共支出數據常常都是天文數字,把數據放到上下文里看,分解到每個人頭上,你會發現這些數字可能是完全合理的。
這個故事告訴我們?比例係數通常比絕對數值更有內涵。但比例係數也並不總是最正確的呈現方式。從你的數據出發,想想有什麼辦法能夠最忠實的呈現它。
衛報(The Guardian)數據新聞記者James Ball建議所有數據新聞記者匯總一些基本的數字,既避免犯初級錯誤,也更容易一眼看出數據和結論是否合理,比如全國處於工作年齡段的人有多少、平均工資、就業率等。這不失為一種辦法。
2. 相關性不等於因果關係
只要你懂哪怕一點點統計學,你應該知道,相關性和因果關係是兩個截然不同的東西。
然而,這一點卻總是被新聞編輯室的人忽略。不要僅僅因為剛好有兩個變量呈現相關性,就以為你有了條獨家新聞。這種相關性完全有可能是其它一些潛在變量引起的,又或者,純屬巧合。
比如下圖:
IE瀏覽器的市場份額 VS 美國謀殺率數據(圖片來自Gizmodo)
這張圖中IE瀏覽器的市場份額與美國謀殺率的關係是我最愛的例子之一-它們倆的超高相關性是不是看上去容易讓人迷惑?想了解更多具有欺騙性的相關性,可以上這個名叫“偽相關”(Spurious Correlations)的網站看看(別怪我害你在那兒流連忘返浪費了一整個下午!)
3. 不知道怎樣把數據可視化
這個問題值得專門寫一篇文章,甚至好幾篇文章,不過這裡我只能點到為止。
好不容易,你做完了數據分析,挖出了一條大新聞,但一個差勁的視覺化呈現就能讓你前功盡棄。糟糕的可視化可能會讓讀者產生疑問,甚至可能誤導他們。比如,請不要這樣……
(圖片來自Business Insider)
不要用線形圖表 (line chart) 表現離散數據,更不要去嘗試那些看上去炫酷的3D餅狀圖,有可能你還在參與那場關於到底能否截短Y軸的永恆辯論。
數據可視化是藝術,更是科學。這裡有一些好的指導書和網站,教你如何避免這些可視化中的潛在陷阱:
- The Functional Art, by Alberto Cairo
- Data Visualization – Principles and Practice, by Alexandru Telea
- VisualisingData.com
4. 忽略文字敘述
在我看來,這是最重要的一點:
數據新聞給了我們以量化方式探索某個話題的力量,但它仍是新聞的一種,也就是說,它的本質還是storytelling(講故事)。如果你只是扔出一堆隨機數字,那你並沒有做好這項工作。數據及其呈現只是一個開端,你要引導你的讀者,講完這個故事。你要讓他們理解為什麼那些數字如此重要,它們代表了什麼。正如數據記者Tanveer Ali在《哥倫比亞新聞評論》(Columbia Journalism Review)中所說:
“數據是講故事的一種方式,而非故事本身。”
作者Clara Guibourg曾為《衛報》數據新聞版面撰稿,目前就讀於倫敦城市大學交互新聞學碩士課程。本文發表於作者的個人博客,全球深度報道網進行編譯。