编者注:如今,越来越多的深度报道都涉及对数据的调查、解读与分析。不熟悉数据或编程的情况下,传统文字编辑如何能更好地审阅数据报道,发现问题或漏洞,确保报道的数据可靠、信息准确?NICAR2017(计算机辅助报道)大会上,《华尔街日报》和佛罗里达州《棕榈滩邮报》的两名调查编辑与同行分享了经验。
作为编辑,即使不会编程或数据分析,在报道发表或播出前问对问题,也有助于发现漏洞。编辑可以向记者问这样一些问题:
- 如何确定没有重复计算字段?(记者应该能够告诉你,他或她是如何检查的。)
- 我们拥有的是全体(研究对象)还是仅有一个子集?如果是后者,我们是怎样选到它的?以及如何确保它可以代表整体?
- 报道中包含一个百分比或总数,不过这个计算样本包括多少人(或公司,等等)?(如果发现记者只联系到了3家公司,66%这个数字也就没什么说服力了。)
- 如果所用数据并非直接源自原始出处,你如何保证它们是最新的?我们可以检查原始来源吗?(例如,Open Secrets可能会晚于联邦选举委员会发布数据。)(译注:Open Secrets由非营利机构The Center for Responsive Politics发布,提供关于联邦竞选捐献、游说数据和分析方面的资源)
- 数据是自行生成的吗?如果回答为肯定,数据是否受到了严格审查?你又是怎么知道的?
- 报道中提到了与数据相关的人,但是没有注明他们相应的出生日期或社会保险号码,你是如何验证他们的身份的? 采取的是逐一验证还是抽样验证?
对记者而言,让专家来检验他们数据分析的方法论尤其重要,即使是最有经验的数据记者也会遵从类似惯例。这要比报道在发表或播出之后,让受众挑出毛病好一些。
- 你是否会自己输入数据?如果是,之后谁负责复查?
- 你是否曾与发布该数据的机构沟通?你是否清楚数据的收集方式、周期及目的?
- 你是否会让业内专家进行数据分析?你又是如何找到这个专家并核实其背景的?该专家此前是否熟悉这些数据?
- 你有没有问过专家:“我遗漏了什么?是否有出错?”
- 你是否向你的调查对象详细解释过你的数据分析结果?他们有没有反驳?如果有,又是如何反驳的?
有时候,报道中的数据并非便捷可得,而是需要记者根据他们的调查、采访或其他档案材料来建立自己的数据集。这时,编辑应花足够的时间,与记者一起商量收集数据的最佳策略,以及讨论是否值得投入大量时间去收集。
下面是在收集独家数据过程中常见的绊脚石:
- 样本不够大。(多少城市/大学/学区才算足够?)
- 数据样本并非全体,或不足以代表全体。
- 数据所覆盖的时间周期不够长,以至于无法通过足够数据去观察一段时间内有意义的变化。
- 我们收集的是经筛选过的数据,并且这种筛选会影响到分析结果。
- 数据自动生成,或漏洞百出。
以下是一些可以有效帮助编辑更加熟悉数据的小练习:
- 和记者坐在一起,让他或她向你展示电子表格上的数据和各项运算。即使不是程序员,你也可能会问出让自己都感到惊奇的问题。
- 在项目早期阶段,就要求记者提交一份关于他们方法论的详细解释,并编辑这份报告,提高清晰度和逻辑性,把它当做一份马上要发表的文章处理。 如果你无法理解其中内容,便说明有关报道并未成熟。
- 向记者询问数据记录格式,这样你就知道她选择研究哪些领域,以及研究包含了哪些数据。
- 对研究的不便之处以及其中不易解释的地方不要含糊其辞。 在读者和批评者提出之前,去用数据指出问题和未了解的事情。
- 千万,千万不要踩着截稿日期发布复杂的数据新闻。
编译/梁晨昱
编辑/Ivan Zhai,梁思然
相关阅读:
NICAR 分享 | 五条经验打造数据团队 小机构也能做出大新闻
NICAR分享 | 从竞争对手到最佳盟友 跨媒体协作所需的六点默契