数据新闻只等于炫酷的可视化效果和繁复的数字列表?意大利数据新闻项目Confiscati Bene从充公物品的公开数据挖到黑手党消费记录和政府处理资产的方式,告诉我们可以用数据和可视化做出深入、系统的调查。项目创始人Andrea Nelson Mauro撰文分享项目实现步骤,并提供当时所用的数据工具以作参考。
文前导读:Confiscati Bene是何项目?
2015年12月中旬刚刚上线的Confiscati Bene是开创性的数据新闻合作项目,旨在深入调查目前存放在欧盟、由欧洲各国当局缴获的价值40亿美元的物品。一个国际记者团队和他们的合作伙伴通过创建欧洲充公财产的数据库,解答充公资产再分配过程中的问责难题。
他们发现,位于意大利边界的蓝色海岸别墅在2006年被充公,但8年后畏罪的别墅主人却依旧在Airbnb上向外出租这套房子,这个蹊跷事件只是欧洲充公房屋问题的冰山一角。2014年,欧洲政府从意大利、德国、西班牙、法国、英国和威尔士的犯罪团伙手中没收了价值20多亿欧元的物资。若是将地理范围扩大到整个欧洲,这一数字还将上升到40亿欧元:每个团伙内部都有团规和黑话,而黑手党和犯罪团伙只说自己非法交易的黑话,预计能帮他们每年获得约1100亿欧元的利润。
Confiscati Bene(顾名思义,指“完全充公”)已获全球深度报道网成员欧洲调查报道基金(JournalismFund.eu)的支持。项目主要内容可参见http://eu.confiscatibene.it。
Dataninja.it项目(也是全球深度报道网的成员)的创始人Andrea Nelson Mauro在本文分享了意大利项目组织的细节。他们团队成员来源广泛,记者、活动家和技术人员均参与其中。Mauro分步阐释调查过程,全文刊载于19份意大利报纸,并传播到欧洲各地。文章介绍了调查使用的多种工具,涉及网页信息采集、内容处理、数据挖掘和编程等。
2015年9月5日,我们项目团队在意大利迎来了一个“出版日”:我们对意大利黑手党充公资产的调查在全球性报纸L’Espresso,及其出版社Repubblica-L’Espresso旗下的18家网站上同步发布——下面这张在线地图列出了这些网站的名字。我们以不同的地区为单位,调查了当地被没收充公的建筑物和公司数量、这些资产的拥有者、以及政府用何种方式把这些充公资产返还给意大利民众。此项调查从2015年7月份开始,对我们来说,这是一个实践数据新闻的绝佳机会。
当时,我们在Niemanlab的网站上读到迈阿密大学视觉新闻学、奈特基金会客座教授Alberto Cairo发表的文章《数据新闻需要提升自身标准》,觉得文中提到的很多有趣建议特别受用。文章称 FiveThirtyEight 和 Vox.com上的一些数据新闻项目有些言过其实,它们应该“用更严谨的科学态度处理数据”。确实,数据新闻需要更深入的分析和调查作为支撑。
Cairo在文中提及的问题也正是我们运营数据新闻网站Dataninja也时常碰到的。在我看来,如今数据新闻过太多描述性统计、数据可视化、预测分析以及网页特效。(就是很多朋友一看到就会发出“哇哦!特效诶!”感叹的作品,以及分分钟都能发布地图作品、但从不顾及新闻价值的“地图专业户”。)
1. 起步:抓取公开数据,挖掘新闻点:
Confiscati Bene是一个参与性项目,旨在提高黑手党等秘密组织的充公建筑和财产的重复利用效率,以分析官方数据和公民监督项目的数据为基础,调查了充公资产的现状和未来使用潜力。(来自Confiscati Bene官网 )几年前,我加入了意大利“Spaghetti Open Data”社区。2014年3月,我们在一个编程马拉松活动中,开发了Condiscati Bene的首个版本。
一个产品小样是怎么的一步步变成成熟作品的呢?
Condiscati Bene创建的第一步就是获取数据,所有数据都抓取自一间拥有充公资产数据库的机构的官方网站。机会难得,这下我们不仅能发布数据,还可以利用我们的新闻和数据技巧提升项目质量。因此我们加入项目团队,为亟需更新的黑手党资产目录建立了在线数据平台。之后,我们阅读了议会条款、挖掘多种报告和文件,由此得知了大量充公资产信息,团队成员继而用项目的邮件列表加以共享。
团队合作相当重要。要是没有团队共享的帮助,我自己花多久才能找到这些资源呢?要是我们为记者提供了充足机会,他们能帮我们改善多少呢?实际上,和记者以外的团队成员并肩作战,工作效果更为显著。随后,我们组建了由记者、活动家、科学家参与的多元背景团队,积极参与在全国和当地由公民发起的打击黑手党监控协会。成员贡献自己专业知识,调查目前财产使用情况、管理措施和未来使用价值。
【小贴士:Condiscati Bene最初的数据框架是如何搭建的?】
从国家没收资产管理局的HTML抓取原始数据,用数据统计软件Open Refine建立结构化数据集。项目网页基于DKAN(公开数据门户,可以轻松发布多种机读文件格式、用API分享数据集,调整大型数据集输入设置)建成,互动式可视化效果由Recline.js javascript数据包运行。内容发布已获得CC BY 4.0许可证,这就意味着你可以在许可证准许范围内重复使用我们的成果。
2. 进阶:建立“内容筛选器”,细化数据分类:
在七月底,我们已经组建了一个三人记者团队并开始了调查。(团队成员包括Andrea Nelson Mauro ,即作者本人, Alessio Cimarelli 和 Gianluca De Martino)。虽然我们不是数据领域的专家,但是为了更好地理解数据所代表的含义,我们阅读了3000多页不同社会组织和观察机构的文件报告。通过匹配结果和线索,我们用这些文件创制了“内容筛选器”,从中选取最有价值的新闻议题。例如,我们发现意大利政府和欧盟为没收充公资产的公共机构提供了六百万欧元资助,监控没收的物资,专门建立一个收集相关信息的大型数据库。但是没人做出什么成果,没人知道这些钱花在了什么地方,甚至没人见过这个项目。
该项目的相关技术和活动如下:
• 数据挖掘:这一部分在调查里比重庞大。我们同时挖掘官方文件和网络信息,以锁定符合的结果和统计数据,辅以从没收物资的公共机构抓取的数据。有时,你需要集中精力才能精确判断出物资目前的没收状态。例如,物资现在到底是被截获?没收?依法冻结?还是归到NGO名下了?
• 地缘分类:为了把这些充公资产标注在地图上,我们需要继续开发一款可视化工具。这款工具由Alessio Cimarelli开发,完全基于Leaflet, D3js, OSM Nominatim等开源工具制成。我们以意大利不同地区为单位,仅仅展示了当地数据的绝对值,没有使用人口或者其他维度的数据去标准化处理。我们之所以这样做,主要是因为希望勾勒出概况:告诉大家黑手党在哪里花了钱,大城市和小城镇间有什么差别。
• 数据筛选: 我们认为报纸应该报道过所有资产没收案件。因此我们从报纸档案库整理出所有的新闻报道,并根据地区分类。另一个数据来源则是资产被没收的重要商人。经过匹配统计结果和量化数据,我们就能够描绘出不同秘密政党(例如黑手党、克拉默、光荣会)在不同地区的分布概况。
• 复审校对:团队合作能够有效发现错误,我认为把草稿分享给项目的其他成员效果更好。
3. 扩展:加大宣传,扩充数据,打造“数据库新闻”
文章发布后,我们把数据上传到由DKAN处理的数据目录,把数据返还给Confiscati Bene。作为项目团队的成员,我们致力于不断改进项目,收集其他数据以扩展项目版图(例如扩至整个欧洲地区)。经19家报纸报道,我们不仅成功传播了项目里的新闻故事,也向公众传递了数据本身。我们也还在不断更新数据。虽然项目的最终结果未知,但是我们正在努力推动、提升质量,说不定你还能听到更多Confiscati Bene的最新消息。
本文原载于DataNinja.it,经授权转载。
Andrea Nelson Mauro是数据新闻记者,Dataninja.it和Datamediahub.it的创始人,SpaghettiOpenData.org 和OpenDataSicilia.it的成员。
翻译/程一祥 编辑/周炜乐 王一苇