我们拿到的数据往往有数值缺失、单位不统一或经人为操纵等问题,要是没有统计学基础,应如何一一解决呢?Quartz的记者Christopher Groskopf总结了我们处理数据时常遇到的棘手难题,结合例子给出了实用建议(Quartz Bad Data Guide,已获得Creative Commons license),还分成数据源、使用者、第三方专家和程序员处理的类别,易懂好上手。深度君经Quartz和“数艺智训”授权,精选其中的经典问题和解决方案,帮你解除数据忧虑。
数据源应该解决的问题
数值缺失
你得谨慎对待任何数据表里出现的空白数据或无效值,除非你百分百确定其含义。如果数据是年度值,看看是不是当年的数据没被收录?如果是份调查,是不是受访者拒绝回答了问题?
每次使用包含缺失值的数据时,你应该问问自己:“我是否知道没有这个数据意味着什么?”要是不清楚,你应该向数据提供方问个明白。
缺失的数值被0代替
比数值缺失更为难办的是用任意值代替了原有数值。这种情况发生要么是因为人为改动数据时没考虑含义,要么是因为自动程序不懂处理无效值。在任何情况下,要是在数字序列中看到0,就该问问自己这个数值是指数字0,还是意味着“无意义”。如果不确定就问问数据提供方。
你所知道的数据遗失
有时候缺了数据,数据表上看不出来,但你还是能知道,是因为了解数据的意义。如果你有一个覆盖整个美国的数据集,检查一下,保证50个州的数据均在其中。(别忘了领土问题——如果数据包含波多黎各,写50就不对了)处理一个棒球运动员的数据集时,就要确保球队数量和预想的一致。拿你知道的几名队员核实看看。如果觉得有些消息缺失了,相信你的直觉,和数据源多核对几遍。你所掌握的数据范围可能比预想的要小得多。
数据粒度太粗
有时你掌握了州的数据,但要精确到县;得到了雇主信息,但需摸清雇员;或是拿到了年度数据,但想了解每月的情况。很多情况下,我们得到的数据远比我们需要的要多要杂。
数据一旦汇总,再分开就难了。如果你得到的数据太粗,就得问数据源要更具体的数字。难就难在,他们也许没有,就算有也可能给不了或者不愿意给。许多联邦级别的数据集不允许地方层级访问,目的是保护特殊人群的隐私。(例如,某个单独的索马里国民生活在西德克萨斯州。)你所要做的就是问清楚。
记住,永远别把一年的数据除以12,把得到的称为“平均每月”数据。无论如何这都是错的,千万别这么做。
你应该自己解决的问题
数据粒度太细
这和“数据粒度太粗”的问题刚好相反。此时,你拿到了县的数据,但想要整个州的,或者你得到了月份数据但你想用年度的。幸好,这问题的解决方法很简单。
数据汇总工具包括Excel或Google文档中的透视表功能、SQL数据库或自己写的代码。透视表是值得每个记者学习的好工具,但它也有局限性。处理非常庞大的数据集或汇总异常数据组时,你应该求教程序员,他们可以制定一个更容易验证和反复使用的解决方案。
人为操纵的时间范围
数据的时间范围是可以动手脚的。数据源可以通过提供含有特定起始时间的数据,有意无意地扭曲事实。2015年广泛报道的“全国犯罪浪潮”就是个有力的例子。实际上根本没有什么犯罪浪潮,只是某些城市的犯罪数量与近几年相比突然上升。如果记者们将观察的时间拉长,就会发现10年前美国各地的暴力犯罪更多,20年前的数量甚至是现在的两倍。
如果数据涵盖的时间范围有限,尽量避免从最开始的时间段开始计算。如果你选取的数据只有几年(或几个月、几天),确保你的对比结果多加一个数据点之后仍能成立。
人为操纵的参考范围
为了政治目的,机构通常将犯罪数字与犯罪率高的年份对比以操纵数据,用变化(自2004年以来下降了60%)或者指数(40,其中2004年 = 100)呈现结果。上述两种情况中,2004年不一定就是合适的对比年份,当年的犯罪率可能高得出奇。
地区比较也是如此。如果想让某个国家的情况显得恶劣,只要把它的数据和表现最优异的国家一比就得逞了。
归根结底,这种现象往往出现含有严重偏见的议题中。(正如犯罪率问题,好多人难免在心里嘀咕“跟我想的一样,犯罪率就是上升了!”)只要有机会,就试试以不同时间为起点,看数字如何随之变化。无论你打算怎么处理数据,千万用这种方法刻意去证明你认为重要的观点。这就太过了。
第三方专业人士应该帮你解决的问题
存在令人费解的离群值
我最近创建了一个数据集来统计互联网信息的传递时长。所有时长都在0.05至0.8秒之间,只有三个例外,且每个都超过了5000秒。通常这是数据生产出错的红色警告。果不其然,这次是因为我写的代码出了错,导致一些计时停止,而其他信息仍在正常传送和接收。
尤其是计算平均数时,像这样的离群值会严重扭曲统计结果。(因此我们应该用中位数)每当得到一个新数据集,最好检查最大值和最小值,确保它们在合理范围内。如果数据合理,你可能也想用标准差或中位差做更严谨的数据分析。
出现离群值还有个好处:离群值往往是寻找新闻头条的绝佳方式。如果真的有个国家在网上发一条消息要花5000倍的时间,这不就是一个好故事吗?
指数掩盖了潜在差异
分析师如果想跟踪某个问题的发展趋势,通常会创建不同标准的指数以追踪进展。指数的解释力很强,用它本身没有问题。但重要的是要格外小心不同度量值组成的指数。
例如,联合国性别不平等指数(Gender Inequality Index)包含了与女性平等进展有关的几个量度。其中一个是“议会中女性代表的比例”。世界上有两个国家的法律规定了议会中的性别代表比例:中国和巴基斯坦。结果这两个国家的指数表现远高于其它国家,尽管所有国家在其它方面都不相上下。这公平吗?这里讨论公不公平意义不大,因为不知道这个影响因素,就不会明白这里的“公平”意味着什么。GII等不平等指数在使用时需严谨分析,以保证潜在变量不会意外地改变指数。
太完美的数据往往不真实
现在还不存在公共舆论的全球数据集,也没有人知道生活在西伯利亚的确切人口数。犯罪数据跨了国界,就毫无可比性。美国政府也不会破天荒地告诉你它持有多少核材料。
以上例子告诉我们,要是遇上任何数据自称能代表你不可能知道的事物,务必要谨慎。它不是数据,而是某些人的估计,很可能是错的。但……它可能是条新闻,因此还是找专业人士验证靠谱。
程序员能帮你解决的问题
数据汇总到错误的分类或地理区域
有时你的数据粗细程度刚好适中(既不太粗也不太细),但有时被汇总到了你不想要的组别。有个经典的例子是,本来数据是按邮政编码汇总的,而你更想按照城市街区来分。在很多情况下,要是不能得到更细粒度的数据,问题就没法解决。但有时数据可以按比例从一个组映射到另一个,可以由此推算数据。在此之前,得弄清楚这个过程可能引入的误差范围。如果你得到的数据汇总错了类别,咨询程序员是否可以重新汇总。
扫描文档中的数据
多亏信息自由法案,很多时候可以要求政府提供数据——即使他们真的不想这么做。这时,政府常见的手法是给你页面的扫描件或照片。它们可能是图像文件,更有可能是集合制成的PDF文件。
我们可以从图像中提取文本、变回数据。这个过程叫做“光学字符识别(OCR)”。现代OCR的准确度常常能接近100%,但很大程度上取决于文档的质量。每次用OCR提取数据,你都得核实一下识别结果是不是和原始文件一致。
现在有很多网站支持文件上传作光学识别。也可以用免费软件,程序员根据文件特点帮你调整软件特性,提高准确度。问问他们你的文件怎么处理最合适。
编辑/周炜乐 王一苇