如何正確解讀數據?

Print More

English

如果你的數據計算正確,但沒有被準確解讀,最終可能會誤導你的受眾。圖:Shutterstock

當你在報道中使用數據時,很重要的一點是了解這些數據是如何獲取到和如何被清理的。但同樣重要的是,你要正確解讀你的發現,從數據表中提煉出正確結論。如果你計算正確,但沒有正確解讀所得數據呈現的結果,最終可能會誤導你的受眾。

為什麼會出現這種情況?有時候,我們處理的數據並不能真正回答我們所提出的問題。在一些情況下,我們可能會在調查的數據收集和分析階段,忘掉了傳統的新聞倫理,而只挑選了支持我們觀點的統計數據,錯過上下文,或者過於專註於我們的問題,而不去聽數據在說什麼。請記住,在數據新聞中,數據就是我們的信源,我們需要尊重它。

一些常見的謬誤

數據新聞第一課,是要確保你不會根據按國家或其他分類匯總的數據,得出關於個人的結論。在你所研究的國家或地區,人們的實際情況可能與這些粗略數據所提供的印象大不相同。

這一問題通常被稱為“生態謬誤”(Ecological Fallacy),數據科學家 Heather Krause 曾用一個關於香煙的例子作出解釋。當研究一些國家的預期壽命和吸煙量時,可能會發現這兩者之間似乎存在正相關關係:在香煙消費量較高的國家,人們也有更長的預期壽命。然而,如果就此斷定吸煙能讓你活得更久,那就不對了。這不僅是因為邏輯和大量科學研究的結果恰恰相反,還因為在這個例子中,所研究的數據並沒有評估香煙對個人的影響,而是簡單地比較了兩個國家的綜合指標。

這種謬誤還揭示了另一個可能導致數據誤讀的問題:被比較的數據沒有因果關係。換言之,相關性不等於因果。因為這些數據最初收集的目的,不是為了觀察多抽煙是否對預期壽命有影響,所以統計分析顯示的是一種預測,而不是因果結論。

研究這兩組數據的記者應該要考慮其他變量,以便為這種相關性找到可能的解釋,比如富裕國家民眾的購買力意味着他們既能消費香煙,同時也能獲得更好的醫療保健。

除了確保計算準確,我們需要評估數字是否揭示了我們試圖報道的現實。阿根廷新聞網站 Infobae 的數據情報部門負責人 Sandra Crucianelli 特別提醒,對平均值要非常小心,如果數據之間的數值間隔太大,可能會產生誤導。

在報道薪水或其他與不平等有關的問題時,這種情況經常發生。在不平等程度高的國家,平均薪水數字不能代表現實,因為這個數據並不能反映貧富差距。

前尼曼基金會研究員、數字訂閱機構 Reveniu 創始人 Miguel Paz 建議記者在報道中使用中位數,因為它更接近大多數人的生活水平。

百分比和比率也是用以描述社會人口狀況的優秀數據。每年,只要哥倫比亞警察公布犯罪數字,我就會看到數十份媒體報道,說什麼“麥德林(Medllin)是最危險的城市”或“波哥大(Bogota)是最不適合擁有手機的地方。”但這些報道僅使用絕對值,因此不能反映真實的安全局勢。如果從事這些報道的記者做一個相對分析,通過將數據與人口或手機使用情況聯繫起來,他們會發現,在擁有800萬人口的大都市波哥大或擁有250萬人口的城市麥德林,這些數字並不像絕對值顯示的那麼糟糕。事實上,不安全問題在其他人均犯罪率較高的城市才需要更多關注。

上述新聞標題也顯示了結論“泛化”是如何出問題的。要正確探討哪個城市最危險,需要更多的指標來描繪一幅更細緻的畫面。

新冠肺炎疫情和大數據學習曲線

新冠疫情發生後,很多記者不得不在一夜之間成為數據記者,以理解不斷上升的病例數。但國家之間的數據比較可能還是很困難。圖:Shutterstock

類似的事情也發生在新冠疫情報道中。目前已有不少報道比較不同國家的感染人數或死亡人數,但這些比較通常不太準確,主要是因為在這種情況下,正確的衡量標準是感染率,即感染者相對於人口的數量。但由於其他一些因素,國家之間的感染率比較會有些困難。

例如,在疫情爆發的頭幾個月,一些國家沒有統計發生在養老院的死亡人數,但後來卻統計了;還有一些國家,只有當病毒是死亡的主要原因,或經檢測證實病人死亡時已感染的情況下,才會算入國家新增病例,這也造成了差異;還有一些國家則使用要求較低的計數標準。病毒在每個國家存在的時間也要納入考慮,因為這一點和其他因素,如衛生系統的強弱,都會使政府學習如何應對疫情的方式有所不同。

關於疫情報道,還有一個重要指標需要牢記,那就是感染致死率,即因感染新冠肺炎死亡的人數除以所有感染者。這個數字的問題是,每個國家都建立了自己的診斷制度,有些國家比其他國家檢測的人數更多,有些國家隨着疫情的發展改變了檢測頻率,這都使得比較變得不可能。當然,在許多國家,據信在登記的病例和死亡數字方面都存在巨大的漏報,前者是由於缺乏檢測設備,後者則因為並非所有死亡都被登記,或被認定與新冠肺炎有關。這使得像英國、美國與印度等國家相互很難作比較。例如,在英國,疫情之初只有入院的人才能接受檢測,這使得死亡率似乎比實際情況更高,因為只有最嚴重的病例被檢測出來。

這場疫情已經證明,每個領域的記者都必須具備數據素養,以便正確處理匯總數據。我們應該注意不要誤用不可比較的變量。許多公職人員都會犯這種錯誤,作為記者,我們必須學會識別這些錯誤並加以避免。

另一個例子來自疫情前的世界。哥倫比亞第一個事實核查機構 Colombiacheck 曾核查一名國會女議員的說法,她說該國的農村土地集中在黑人和原住民手中,這引起了巨大的爭議,因為由於該國內部的長期衝突,這些群體經常成為被剝奪土地的受害者。在核查她的說法時,記者發現,儘管官方數字確實顯示這兩個群體擁有的土地總數比其他族群的哥倫比亞人多,但如果認為這些群體的集體所有權契約,等於這些群體內的個人可以行使更大的土地所有者權力,那就是錯誤的。

準確解讀數據的小貼士

我們在這裡準備了一個檢查表,以確保你在文章發表前正確解讀數據。

  • 確保每次做調查時都問自己,這些數據是否真的與你的調查問題有關,有足夠的信息嗎?可以問這樣的問題:我看待數據的角度對嗎?我對數據提出了足夠多的問題了嗎?我對數據的拆解足以讓我看出其所有重要的細微差別了嗎?其中的變量有可比性嗎?
  • 根據你掌握的數據的程度來講故事。如果你只有國家層面的信息,你的發現就應該只針對國家趨勢或預測。如果你有個人層面的數據,那麼你可以對人們的行為或趨勢做出結論。
  • 驗證你所分析的變量是否有直接的因果關係,或者是否有應該考慮的中間因素。你可以通過查看數據的收集和處理方式來做到這一點。
  • 如果數據的相關性不是因果關係,而是預測性的,那麼一定要以這種方式來講述故事,用這樣的句子:“如果x增加,y將更有可能下降。”如果相關性是種巧合,就考慮放棄它。
  • 注意數據表每一項信息代表什麼(人、事實、案例或是位置),並相應地描述你的發現。
  • 當發現異常值時,不要急於快速發布它們。首先,看看對任何極高或極低值的解釋是否真的使它們具有新聞價值,數據是否有缺陷,或者是否有額外因素來解釋異常值。
  • 考慮用什麼運算來分析您的數據,百分比、平均值、比率還是比例。你的決定將取決於數據的特點和故事主題。
  • 與專家交流。統計學家可以幫你識別你所處理的數據類型:預測性、因果性、可比較性或不可比較性等。此外,你的故事的特定領域專家,應能幫助你看到數據差異、誤讀、遺漏因素和新的相關性等。

最後,請始終牢記,這些通過深入挖掘數據而產出的報道,會影響了人們和政府的決策方式。這說明數據處理和數據素養至關重要,如果我們沒有考慮到所有必要因素,在沒有必要的背景分析的情況下得出結論,我們可能會引起人們對錯誤焦點的關注,無意中說服人們養成可能傷害他們的習慣,或只講了一個與大多數人無關的故事。


Miriam Forero Ariza 是哥倫比亞自由調查記者和數據記者,她的報道曾在 VICE、Colombiacheck 和 El Espectador 等媒體發表。Ariza 在合作調查、數據分析和可視化方面有十多年的經驗,她也是《伊比利亞美洲數據新聞手冊》(Iberoamerican Data Journalism Handbook)的合著者。

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註