财新网自2013年下半年开始尝试进入数据新闻领域,近两年来在该领域推出了一批代表性作品,并在其间积累了一些经验。数据新闻,无疑应从数据出发。
在“如何搞定搜索和数据?”方面,分享一些财新的实践经验。
对于涉及人物、公司关系类的调查报道,在查找、核实与人物、公司、地点、时间有关的线索时,财新记者于宁以案例介绍了她的实践体会。(注:于宁是《财新周刊》财经主笔,曾参与《周永康的红与黑》、《奢侈动车》等调查报道的采写)
据于宁介绍,“全国企业信用信息公示系统”是查询公司信息的重要入手点,该网站下设全国31省市的地方企业信息查询子系统。与此同时,各地方也建有自己的企业信用信息公示系统,目前做的比较好、查询功能较为强大的是深圳和北京。
于宁以周永康报道时的一个调查(注:《白手套米晓东》)为例,当时首先通过“北京市企业信用信息网”查询“米晓东”(此人为周滨的白手套),查到一系列与米晓东有关的公司,其中包括“陕西秋海汲清石油科技有限公司”。
随后又通过“全国企业信用信息公示系统”中的“陕西”子站查询上述公司,从中发现了商人王乐天的身影。进一步通过查询工商资料最终摸出了周滨岳母詹敏利持股该公司的线索。
在查询米晓东的过程中,还发现了汇盛阳光等几家公司的注册地都在“北京市朝阳区来广营乡奶白路3号”的相邻位置,于是对这几个地点进行了进一步调查,产生了后续的相关报道。
在报道过程中,对于关键人物,会通过搜索引擎查询人物姓名及特征描述,在大量结果中翻阅出该人物出席过的活动、参加过的会议、与其一同出现过的重要人物等等。在周永康报道中关于周永康妻姐贾晓霞在加拿大的活动信息就是通过搜索引擎发现的。对原铁道部长刘志军案中的关键人物丁书苗的报道,也采用了类似的方法。
此外,对于上市公司,财新网还会通过金融数据终端查询企业财务报告、股权变更和重大事项,Wind是较常用到的终端之一。但若公司没有上市,此类信息则较难获取。在Wind终端中还有几个被较少发掘的数据库,包括中国并购库、中国PEVC库、中国企业库等,可以从中搜寻非上市公司的身影,但目前数据尚不全面也不够稳定,只能作为参考。
对于数据驱动的报道,财新会首先从数据的可得性出发,再考虑新闻价值。数据——故事——呈现,遵从这样的基本逻辑。因为如果倒过来的话,鉴于中国目前的开放数据仍然十分落后的状况,往往徒有一个好点子,但最后无法落地。
官方网站无疑是最可以被信赖的数据源(数据造假是另外一件事),以财新的几个作品为例,《三公消费龙虎榜》数据来自90多个政府部门的网站,《百年星空诺贝尔》来自诺贝尔奖官方网站,《中央纪委巡视风暴》和《红色通缉令》均来自中央纪委监察部网站。
需要指出的是,中国政府部门网站公布的数据仍然十分不规范,这给数据采集造成一定困难。不规范表现在几个方面,一个是数据存放位置不规范,同样是三公数据,有的部门放在“要闻”,有的部门放在“通知公告”,有的部门放在“政务公开”。这种情况下,需要用到站内搜索,但搜索质量参差不齐,且需要数据采集人员对选题本身有一定认知,比如直接搜“三公”可能搜不到想要的目标,改搜“部门预算”则可以搜到。
另一个不规范是数据格式不规范,目前见到过的数据格式包括页面文字、PDF、Excel、DOC、JPG等,需要采集人员在转换成统一格式的时候更加仔细。
国外的信息公开和数据意识要好得多,联合国、OECD、世界银行、世界卫生组织都有相对易用、完备的数据源供下载。
其次可以信赖的数据源是权威的数据终端。数据终端是专业数据公司提供的PC软件,国内使用较多的是Wind,国外较多用彭博。财新的宏观经济、金融市场类的选题数据大部分来自Wind金融终端,虽然是二手数据,但由于机构本身是专业的数据公司,其数据来源自官方机构,并且以技术实现数据同步,避免了人工录入过程中的差错。在数据格式以及数据的批量导出上数据终端较官方机构具有明显优势,所以在实际工作中经常被用到。
对于媒体信源,需分情况讨论。新华社、人民日报为代表的官媒是可以采信的来源。尤其是地方官媒,在报道地方政府消息方面有独特优势。举例来说,每年初需要了解各地上年经济数据和下年经济目标的时候,地方统计部门的数据经常较为滞后,但相关数据会在地方两会的工作报告中披露,而地方官媒对此类报道有绝对优势。此外不建议轻易采用别家媒体整理的批量数据,因为很难掌握数据采集过程。但可以以其他媒体的数据为线索,找到最终的第一手数据。
还有一个信源是信用等级高的第三方机构,包括咨询公司、调查公司、会计师事务所、高校研究机构等。除了机构本身要足够权威以外,还需关注每一份数据的采集背景,尤其是调查类数据,调查了多少样本、样本与整体的特征是否一致、调查方法、数据解释,都需要足够严谨。美国民调机构皮尤中心的调查数据经常引起争议,一个原因就是样本被质疑不具有代表性。
好的数据应该是连续的、完整的、格式统一的,数据新闻需要有足够量的数据支撑,如果数据零散,那么也许只适合普通的文字报道。
数据新闻的作用之一是数据挖掘,通过可视化展现出此前未被发现或未被验证过的趋势性结果,因此当然可以先有了结果再找到论据来支撑,但也许还存在不支持这样结果的其他论据,这是值得探讨的。
在《三公经费龙虎榜》的项目中,在最终结果里曾发现有一个部门在某年的人均出国费用奇高,数据和算法均没有错,再倒查发现该部门当年的出国费用激增,继续查看原始文件,发现该部门由于统计口径改变,将上一年发生的一部分费用计入了下一年,于是出现了上述情况。这要求相关人员怀有数据敏感和好奇心,毕竟有时候,“奇怪”就是一个故事的开始。
作者简介
黄晨是财新数据可视化实验室的数据新闻主编。工学学士、经济学硕士。她曾长期从事垂直财经网站的数据库产品工作。2010年初加入财新, 先后负责数据库产品、数字说栏目的策划和采编。2013年10月加入实验室,参与众多可视化作品的策划工作。