數據新聞中最常見的10個錯誤

Print More

English

data journalism errors avoid spreadsheets

圖: Shutterstock

在數據新聞中,數據錯誤可能會對調查報道產生連鎖反應,並對受眾的信任度產生破壞性影響——因為許多其他錯誤、趨勢和結論都可能源於最初的錯誤。

在最近在田納西州納什維爾舉行的 NICAR23 會議(由美國調查記者和編輯協會(IRE)組織的年度數據新聞峰會)上,GIJN 邀請了幾位演講者分享那些曾危及或損害調查的常見數據錯誤或疏漏。

“每個記者都會犯錯誤,關鍵是要聰明地確保你永遠不會再犯同樣的錯誤,並對你的受眾保持透明,”美國大學調查報道工作坊數據編輯 Aarushi Sahejpal 說。“但你確實可以最大限度地減少錯誤的機會。”

Sahejpal 表示,想要避免犯錯,通常需要問自己三個問題,其他專家也表示贊同:你真的擁有完整的數據集嗎?你是否與數據背後的人交談過,了解它的真正含義?數據沒有告訴你什麼?

儘管如此,錯誤還是會發生,以下是數據新聞專家列出的10個常見原因。

1. 忽視電子表格中的空白行。據數據新聞培訓師 Samantha Sunne(目前是ProPublica的本地報道研究員)介紹,一個常見且具有破壞性的錯誤是錯誤地認為你已經在 Google 表格中選擇或突出顯示了整個數據列。但問題在於,電子表格在下面的空行處停止突出顯示,Sunne表示,有些記者沒有發現這種數據排除,導致他們在調查中得出錯誤的結論。
Sunne 解釋道:“通常情況下,你的數據中會出現空行——也許那是頁面分隔符的位置,或者某個項目沒有數據——如果你不向下滾動,你可能很容易就不會注意到它們。如果你不小心確保選中所有數據,它可能會徹底破壞你的分析。”

她的解決方案是什麼?在點擊任何數據列後,按一次 Control + A(在 Mac 電腦上是 Command + A),然後再按一次 Control + A(或 Command + A),以確保能夠選中空行下面的數據。

2. 沒有檢查政府的功能編碼。路透社數據新聞編輯 Janet Roberts 表示,政府和市政機構經常更改其功能編碼,而這可能在你收集他們的數據時發生——報道發表前,記者需要檢查數據集中的所有數據是否指代同一事物。

“在聖保羅(明尼蘇達州),我們正在對貧民窟房東進行調查,我們獲得了建築違規數據,準備找出哪個房東犯了某種違規行為最多,”Roberts 回憶道。“我們做了所有的數據分析——但結果發現,建築部門在某個時間改變了代碼,所以也許‘02’過去表示老鼠橫行,但現在表示你沒有清掃人行道,或者其他什麼事。幸運的是,我們發現了這一點——儘管是在後期——因為如果我們沒有發現,整個報道都將是錯誤的。”

她補充說:“這裡潛在的錯誤是沒有理解數據,沒有與保存數據的人交談,(我們需要)留意數據如何隨着時間演變。”

3. 將百分比與百分點混為一談。儘管這是一個低級錯誤,但仍然是一個常見的錯誤,並可能在不經意間誤導受眾。“如果某個數據從20%跳到30%,實際上是增加了50%,而不是增加了10%——這可能很棘手,但需要特別注意,”Sunne 解釋道。數據專家強調,百分比變化是指一個比率的變化,而百分點變化則意味着數量的變化。為避免混淆,最好說某個數據“翻了一番”來描述100%的增加。“很多人不了解百分點和百分比之間的區別,”Sahejpal說。“同理,‘人均’——在同一句話中使用百分比和人均是不合理的,因為人均是指每個人。”

4. 在沒有進行二次檢查的情況下接受整數。根據 Roberts 的說法,大的整數或數據行的整數,例如7000或2000,通常意味着記錄搜索或數據傳輸的某種限制,而不是真實的總數。

“我們有數據顯示,只有5000家公司提交了關於某件事的必需報告,我們想:‘確切地說是5000家?’”Roberts 回憶道。“這似乎很不尋常,而且數字很低。記者沒有注意到的是,網站將搜索結果限制為5000條記錄,而真實的結果是這個數字的三倍。”

“如果你有一個完全是 1000 或 10000 行的數據集,我敢打賭一定有什麼地方出了問題,”Sahejpal 說。“而且之前有很多我的學生學生下載了一個文件,卻沒有意識到他們下載的是一個已經濾過的版本。另一個錯誤是,如果你沒有檢查數據集的範圍是否等於政府網站上報告的範圍。”

5. 忽略了不同國家的數字格式是不同的。“美國的$1,753.00在拉丁美洲寫作‘$1.753,00’——逗號、句號和撇號的位置不同——但電子表格沒有考慮到不同的標點符號,”國際調查記者聯盟(ICIJ)拉丁美洲協調員 Emilia Diaz-Struck 說。“如果你不考慮數字的來源,也有可能犯一些非常基本的概念性錯誤。”

6. 當數據“看起來不太對勁”時,不要忽略你的直覺。即使在電子表格中檢查了數據並與人工數據來源進行了核實,有經驗的記者有時仍會覺得這些數據令人不安,或與他們對該主題的了解相矛盾。ICT(前印第安國家今日)的高級編輯 Dianna Hunt 建議,記者應該尊重這種直覺,尋找其他或歷史數據,或向學術研究人員請教,以獨立核實這些數據,或至少確認它們在該主題的“合理範圍”內。例如,這種直覺可能揭示了原政府數據收集者的重大錯誤,或者僅僅是輸入階段的小數點錯位。

Hunt 說:“當某件事看起來有問題時,你需要關注你的直覺,這在我參與的一些調查中確實得到了回報。”

7.  沒有與數據集背後的人溝通。“在使用數據之前,你需要聯繫數據來源,了解每一列的含義,”Sahejpal 說。“或許你正在從一個有着完美方法論的網站上下載數據,但我敢肯定,你所查看的大部分數據在實際意義和非意義方面都不清楚。數據新聞領域的人們往往沒有解釋這一點,但實際上,我們與人們的交流比你想象的要多得多,我們並不只是盯着電腦屏幕。”

他補充說:“與輸入數據的人取得聯繫,比弄清楚如何處理他們的數據集要容易得多。”

8. 在獲得相關數據集後,假設數據集已經涵蓋了整個故事。Sahejpal 建議記者立即找出並明確指出那些數據集無法回答的相關問題。

他說:“作為編輯,我避免犯錯的首要方法就是列出數據沒有告訴你的內容。”他補充道:“我們稱之為數據集的‘局限性部分’,它是你最強大的盟友,因為如果你知道它沒有告訴你什麼,你就明白不應該說什麼,以及還需要提出哪些進一步的問題。”

Sahejpal 還指出:“例如,如果你有一個關於華盛頓特區停車罰單違規的數據集,你可以列出可能影響你分析的未包含的地區和變量。這樣一來,你一開始就能掌握你所需的完整畫面。接下來,你可以給負責數據的人打電話,確認你掌握的數據。”

9. 在圖表中使用錯誤的刻度尺。媒體發布的圖表或提供給記者的圖表,有時會以一個任意數字,如“1500”而不是零,作為坐標軸的起點,這可能會讓觀眾感到困惑,或者產生錯誤。“要對你發布的可視化內容持批判態度,”Sahejpal說。“確保檢查X軸和Y軸,進行比較的變量,以及刻度尺,以確保準確性。在任何數據可視化中,都要觀察刻度尺是否從錯誤的地方開始,或者變化的增量是否合適。我經常看到這種錯誤。”

10 . 在 Google 表格中排序時忘記將列關聯起來。排序數據通常是通過整理行來呈現簡單的角度,例如,從最差到最好:如一列頂部的某種原因的最高死亡率,以下是表現較好的城鎮。

在 Google 表格中排序相當簡單,它甚至會彈出建議來協助,但它需要按照表格上的逐步順序操作。

根據 ESPN 的數據記者 Tisha Thompson 的說法,記者可以嘗試許多功能,但她警告說,記者務必不能忘記的一步就是在 Google 表格中排序時點擊“左上角的方格”:選擇列和行軸的空白框。這個框將排序列與整個數據集關聯在一起。她說,忘記這個方格不僅會弄亂你的數字,而且可能在你發現錯誤之前就已經造成了損害。

“忽視左上角是你可能犯的最簡單的錯誤,而這可能導致職業生涯的終結,”Thompson 警告道。“你需要確保你的數據與其他行和列保持關聯,因此你需要突出顯示整個數據集和排列。不要僅僅對單列進行排序;始終使用左上角——就像系鞋帶一樣。”


Rowan Philp, senior reporter GIJNRowan Philp 是全球深度報道網的資深記者,他也是南非媒體 Sunday Times 的前首席記者。作為一名駐外記者,他曾在全球20多個國家報道新聞、政治、腐敗和衝突。

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註