數據圖也有陷阱?即使數據準確、完整,其展現方式如果不易於讀者理解,或是產生誤導,也就喪失了它配合故事敘述的意義。美國媒體Quartz的記者Keith Collins在《2015最具誤導性的圖表》一文中總結出了我們經常會出錯的幾種類型,幫你煉就火眼金睛,做出更優質的圖表。
這一年來,Quartz製作了眾多圖表,也花了不少時間思考、討論相關問題,發布了長達6000字的數據處理指南(深度君將會奉上中文版精華)以及一篇講解如何正確使用y軸的文章。看到很多圖表要麼使用模糊或錯誤的數據、畫出有偏差的軸線,要麼在其他方面誤導讀者,我們覺得很可惜。我們會想,“世界到處都是優質的數據呀!為什麼每個人不能合理引用數據、使之標準化,直接把它展現出來呢?”因此,Quartz今年總結出錯誤最突出的例子,加以糾正。
1. y軸不出現,大小難以辨
——以Planned Parenthood數據中y軸的偏差為例
在2015年9月29日舉行的一場聽證會上,美國參議院中的共和黨議員不斷追問非營利組織Planned Parenthood(該組織是一個提供計劃生育相關服務的非營利組織,大約每年接待 270萬女性進行各種身體檢查,避孕與墮胎等。來源:知乎)的主席Cecile Richards,指責她濫用了該組織的年度聯邦資助中的500萬美元。為了闡明問題,猶他州的參議員Jason Chaffetz以下圖佐證:
他解釋道:“粉色軸線告訴我們該組織所做的乳房檢查次數在不斷減少,紅色軸線則顯示墮胎手術實施次數逐漸上升。這反映了該組織的現狀。”
乍一看,這張圖的確顯示Planned Parenthood實施的墮胎手術數量猛增,同時癌症檢查的次數卻急劇下降。讀者還可能被誤導,認為從2010年起該組織實施的墮胎次數遠遠多於預防檢查次數。但這並非實情。這張圖最大的錯誤在於沒有明顯的y軸,因而兩條數據線隨意交叉,讓人誤以為327000比935573還要大呢。
美國事實核查型新聞網站Politifact 核對了以上數據,從Planned Parenthood年度報告中選取了墮胎手術和預防性措施的數據。數據範圍調整合理後,信息展現如下:
如圖所示,癌症檢查和預防服務的數量的確呈下降趨勢,這和原圖表相一致。但這些檢查的次數仍遠遠大於墮胎手術次數。下圖採用了另一種展現方式,用的是這兩項服務逐年的百分比變化:
(注意:本圖並未收錄2008年的數據;Politifact和Quartz均未找到該年的報告)
2.圖形元素不可用,雙重標準有漏洞
——以美國白宮錯誤計算高中畢業率為例
在12月中旬,美國白宮的官方賬號發了一條推特:“好消息:美國高中畢業率已升至歷史最高水平?。”推特配圖如下:
此圖有好幾個問題值得商榷。首先,在數據圖裡用圖形元素作單位從來都不是個好主意。用五本書代表75%、或者用16本書代表82%是幾個意思?這到底是個柱狀圖,y軸就應該以零作為起始值。同樣的數據,採用合適的比例後呈現如下:
其實畢業率的逐年變化沒有原圖那麼大,對吧?但問題不止於此。仔細看看白宮這張圖右下角“數據來源”一行:畢業率數據來自“美國教育部(DOE)下屬的國家教育統計中心(NCES)”。問題在於,無論是統計中心還是教育部都無法提供一張囊括2008年至2014年逐年畢業率的單一數據表。不同的數據集合可能採用不同方法計算畢業率,把這些數據放在一起討論是有潛在問題的。這也說明政府的數據分類做的太糟糕,即使是畢業率這樣簡單的指標他們也需要好幾張數據表才拼湊得出。
現在,我們暫且假定白宮的核算方法沒問題,選取的數據表都採用了同樣的方法計算畢業生組別,但有一個問題我們不能忽視:即使y軸固定,柱狀圖也可能是一種糟糕的呈現方式。要知道,製圖時最重要的是選擇合適的方式呈現數據。若要顯示一段時間內畢業率的細微差別,最好用折線圖。以下數據圖便採用了單一數據源,囊括了1975年以來每年的畢業率:
若縱觀全局,我們能得出幾個結論。一是畢業率在奧巴馬甫任總統時就已經呈現上揚趨勢。另一個是,截至2012年,奧巴馬任期內畢業率的增長百分比已經超過了以往任何一屆總統。如果像白宮圖表顯示的那樣,2014年的畢業率為82%,該增長幅度實際接近於7%。 (*更新:我們之前將統計中心和教育部分為“兩個單獨的數據來源”。一些讀者指出統計中心是教育內部機構,因此應該被視為同一數據來源。我們表示贊同,對以上內容做了相應修改。)
3. y軸起始都是零,細微變化看不清 ——以National Review雜誌全球變暖的報道為例 下面這張圖可謂是2015全球(圖片界)最差圖表:
當有人說所有折線圖的y軸都應該以0為起始點時,我們都應該想想這張圖。全球平均氣溫即使僅僅變化了1度,也會影響巨大,但這張圖從零開始計數,氣溫的變化就顯得微乎其微了。正如記者 下面這份同樣看不出變化的逐年對比圖則是由彭博商業周刊圖片部發布的:
實際上,要想準確呈現1880年以來全球平均氣溫的變化,我們得把y軸的起始數據調高:
4.背景不了解,製圖出偏頗
——以美國政府開支分布圖為例
以下是2015年初瘋傳的政府開支餅圖:
Politifact發現,這是一個對於政府開支實際運作方式根本上的誤讀。該圖展現的僅僅是政府可以自由決定的部分,完全忽略了硬性開支。實際上,醫療保健、醫療補助、社會保障等法定項目佔去了政府總開支的60%。該圖顯示政府給低收入者發放的“食品券”一項已被歸入食品和農村預算一項(可由政府自由決定),實際上是硬性項目的一部分,並沒有在圖中體現出來。以下則是包括硬性開支後的2015年政府開支圖:
據Politifact稱,圖中的“其餘開支”一項包括“司法部門、立法部門、獨立機構和商務部、內政部、財政部除去抵消性收入後的開支”。
5.數據來源不統一,標準混亂失公允
——以美國總統任期內大規模槍擊案數量圖為例
加州聖伯納迪諾市發生槍擊後,對於如何計算劃分大規模槍擊的討論在數據界展開。相關的數據收集有好幾種,定義的方法也各不相同。有些只計算了造成四人及以上死亡的槍擊案例,其他的則將四人及以上中槍(無論死傷)的案例都算在內。問題在於,根據不同標準,每年大規模槍擊的數量範圍可從幾十跨到上百。
在12月2日,一家名為Truthstream Media的網站發布了一篇文章,題目為“為什麼奧巴馬任內發生的大規模槍擊超過了他前四任的總和?”報道插入下圖作為證明,據稱參考多個數據源。一是Mother Jones數據庫計算的大規模槍擊數量,使用的就是四人及以上死亡的標準。其他兩個數據源來自維基百科。
經過檢查,我們發現這些數據都是有意篩選過的,奧巴馬任期的數字被歪曲了。
TruthStreamMedia.com對於“大規模槍擊案”的定義範圍限定寬鬆,捏造了不失數據。奧巴馬任期內的槍擊案還算上了家庭謀殺案,而計算前四任時卻把這一項省去了。例如,奧巴馬任期內的統計中出現了“Ervin Lupoe槍擊案”的記錄。Lupoe在2009年殺死了自己的妻子和五個孩子,但是維基百科或Mother Jones數據庫並沒有收錄該案件,因為它不屬於“大規模槍擊”一類。 以下為以總統任期為單位的大規模槍擊案數量統計圖,使用的是Mother Jones的數據:
原文:The most misleading charts of 2015, fixed
翻譯/周煒樂 編輯/王一葦