我們拿到的數據往往有數值缺失、單位不統一或經人為操縱等問題,要是沒有統計學基礎,應如何一一解決呢?Quartz的記者Christopher Groskopf總結了我們處理數據時常遇到的棘手難題,結合例子給出了實用建議(Quartz Bad Data Guide,已獲得Creative Commons license),還分成數據源、使用者、第三方專家和程序員處理的類別,易懂好上手。深度君經Quartz和“數藝智訓”授權,精選其中的經典問題和解決方案,幫你解除數據憂慮。
數據源應該解決的問題
數值缺失
你得謹慎對待任何數據表裡出現的空白數據或無效值,除非你百分百確定其含義。如果數據是年度值,看看是不是當年的數據沒被收錄?如果是份調查,是不是受訪者拒絕回答了問題?
每次使用包含缺失值的數據時,你應該問問自己:“我是否知道沒有這個數據意味着什麼?”要是不清楚,你應該向數據提供方問個明白。
缺失的數值被0代替
比數值缺失更為難辦的是用任意值代替了原有數值。這種情況發生要麼是因為人為改動數據時沒考慮含義,要麼是因為自動程序不懂處理無效值。在任何情況下,要是在數字序列中看到0,就該問問自己這個數值是指數字0,還是意味着“無意義”。如果不確定就問問數據提供方。
你所知道的數據遺失
有時候缺了數據,數據表上看不出來,但你還是能知道,是因為了解數據的意義。如果你有一個覆蓋整個美國的數據集,檢查一下,保證50個州的數據均在其中。(別忘了領土問題——如果數據包含波多黎各,寫50就不對了)處理一個棒球運動員的數據集時,就要確保球隊數量和預想的一致。拿你知道的幾名隊員核實看看。如果覺得有些消息缺失了,相信你的直覺,和數據源多核對幾遍。你所掌握的數據範圍可能比預想的要小得多。
數據粒度太粗
有時你掌握了州的數據,但要精確到縣;得到了僱主信息,但需摸清僱員;或是拿到了年度數據,但想了解每月的情況。很多情況下,我們得到的數據遠比我們需要的要多要雜。
數據一旦匯總,再分開就難了。如果你得到的數據太粗,就得問數據源要更具體的數字。難就難在,他們也許沒有,就算有也可能給不了或者不願意給。許多聯邦級別的數據集不允許地方層級訪問,目的是保護特殊人群的隱私。(例如,某個單獨的索馬里國民生活在西德克薩斯州。)你所要做的就是問清楚。
記住,永遠別把一年的數據除以12,把得到的稱為“平均每月”數據。無論如何這都是錯的,千萬別這麼做。
你應該自己解決的問題
數據粒度太細
這和“數據粒度太粗”的問題剛好相反。此時,你拿到了縣的數據,但想要整個州的,或者你得到了月份數據但你想用年度的。幸好,這問題的解決方法很簡單。
數據匯總工具包括Excel或Google文檔中的透視表功能、SQL數據庫或自己寫的代碼。透視表是值得每個記者學習的好工具,但它也有局限性。處理非常龐大的數據集或匯總異常數據組時,你應該求教程序員,他們可以制定一個更容易驗證和反覆使用的解決方案。
人為操縱的時間範圍
數據的時間範圍是可以動手腳的。數據源可以通過提供含有特定起始時間的數據,有意無意地扭曲事實。2015年廣泛報道的“全國犯罪浪潮”就是個有力的例子。實際上根本沒有什麼犯罪浪潮,只是某些城市的犯罪數量與近幾年相比突然上升。如果記者們將觀察的時間拉長,就會發現10年前美國各地的暴力犯罪更多,20年前的數量甚至是現在的兩倍。
如果數據涵蓋的時間範圍有限,盡量避免從最開始的時間段開始計算。如果你選取的數據只有幾年(或幾個月、幾天),確保你的對比結果多加一個數據點之後仍能成立。
人為操縱的參考範圍
為了政治目的,機構通常將犯罪數字與犯罪率高的年份對比以操縱數據,用變化(自2004年以來下降了60%)或者指數(40,其中2004年 = 100)呈現結果。上述兩種情況中,2004年不一定就是合適的對比年份,當年的犯罪率可能高得出奇。
地區比較也是如此。如果想讓某個國家的情況顯得惡劣,只要把它的數據和表現最優異的國家一比就得逞了。
歸根結底,這種現象往往出現含有嚴重偏見的議題中。(正如犯罪率問題,好多人難免在心裡嘀咕“跟我想的一樣,犯罪率就是上升了!”)只要有機會,就試試以不同時間為起點,看數字如何隨之變化。無論你打算怎麼處理數據,千萬用這種方法刻意去證明你認為重要的觀點。這就太過了。
第三方專業人士應該幫你解決的問題
存在令人費解的離群值
我最近創建了一個數據集來統計互聯網信息的傳遞時長。所有時長都在0.05至0.8秒之間,只有三個例外,且每個都超過了5000秒。通常這是數據生產出錯的紅色警告。果不其然,這次是因為我寫的代碼出了錯,導致一些計時停止,而其他信息仍在正常傳送和接收。
尤其是計算平均數時,像這樣的離群值會嚴重扭曲統計結果。(因此我們應該用中位數)每當得到一個新數據集,最好檢查最大值和最小值,確保它們在合理範圍內。如果數據合理,你可能也想用標準差或中位差做更嚴謹的數據分析。
出現離群值還有個好處:離群值往往是尋找新聞頭條的絕佳方式。如果真的有個國家在網上發一條消息要花5000倍的時間,這不就是一個好故事嗎?
指數掩蓋了潛在差異
分析師如果想跟蹤某個問題的發展趨勢,通常會創建不同標準的指數以追蹤進展。指數的解釋力很強,用它本身沒有問題。但重要的是要格外小心不同度量值組成的指數。
例如,聯合國性別不平等指數(Gender Inequality Index)包含了與女性平等進展有關的幾個量度。其中一個是“議會中女性代表的比例”。世界上有兩個國家的法律規定了議會中的性別代表比例:中國和巴基斯坦。結果這兩個國家的指數表現遠高於其它國家,儘管所有國家在其它方面都不相上下。這公平嗎?這裡討論公不公平意義不大,因為不知道這個影響因素,就不會明白這裡的“公平”意味着什麼。GII等不平等指數在使用時需嚴謹分析,以保證潛在變量不會意外地改變指數。
太完美的數據往往不真實
現在還不存在公共輿論的全球數據集,也沒有人知道生活在西伯利亞的確切人口數。犯罪數據跨了國界,就毫無可比性。美國政府也不會破天荒地告訴你它持有多少核材料。
以上例子告訴我們,要是遇上任何數據自稱能代表你不可能知道的事物,務必要謹慎。它不是數據,而是某些人的估計,很可能是錯的。但……它可能是條新聞,因此還是找專業人士驗證靠譜。
程序員能幫你解決的問題
數據匯總到錯誤的分類或地理區域
有時你的數據粗細程度剛好適中(既不太粗也不太細),但有時被匯總到了你不想要的組別。有個經典的例子是,本來數據是按郵政編碼匯總的,而你更想按照城市街區來分。在很多情況下,要是不能得到更細粒度的數據,問題就沒法解決。但有時數據可以按比例從一個組映射到另一個,可以由此推算數據。在此之前,得弄清楚這個過程可能引入的誤差範圍。如果你得到的數據匯總錯了類別,諮詢程序員是否可以重新匯總。
掃描文檔中的數據
多虧信息自由法案,很多時候可以要求政府提供數據——即使他們真的不想這麼做。這時,政府常見的手法是給你頁面的掃描件或照片。它們可能是圖像文件,更有可能是集合製成的PDF文件。
我們可以從圖像中提取文本、變回數據。這個過程叫做“光學字符識別(OCR)”。現代OCR的準確度常常能接近100%,但很大程度上取決於文檔的質量。每次用OCR提取數據,你都得核實一下識別結果是不是和原始文件一致。
現在有很多網站支持文件上傳作光學識別。也可以用免費軟件,程序員根據文件特點幫你調整軟件特性,提高準確度。問問他們你的文件怎麼處理最合適。
編輯/周煒樂 王一葦