9月底的德国汉堡,总是飘着小雨。为期四天的全球深度报道大会(GIJC)结束了。每天早上9点「上课」,下午5点「下课」,主题从数据新闻到媒体可持续发展,从如何进行深度调查到对抗假新闻,涵盖了几乎所有深度报道的可能性。来自130多个国家,1700多名新闻工作者、研究者在大会会场进进出出,各种精彩的课程让人应接不暇。
作为一名数据编辑,我深知在中国找数据不是一件容易的差事,因为很多公开的数据可能要么缺失,要么格式混乱。因此,这次参会的目的之一是,是想弄明白如何在没有现成数据库的情况下,记者应该如何自己收集和创建数据库?
方法之一就是进行众包。
「众包」(Crowdsourcing)起初是一个互联网概念。简单解释就是,将一个项目分给一群人做,每个人做一点。最常见的大概就是Google 的登录验证器,比如选择图中可见的红绿灯、车辆等等。每个用户登录时识别一次,将这些识别数据汇聚起来,就会得到一个巨大的数据集,Google 就可以用它们来训练自己的人工智能。
在新闻行业,尤其是在数据新闻领域,众包新闻也是一种常用的方法。因为数据新闻的选题基础是数据,但记者又不一定能常常找到令人满意的数据库。这种情况下,如果每个读者都能提供一些信息,那这些信息汇集起来,就会成为一个有价值的数据库。
在我看来,众包新闻主要有两种,一种是收集故事,另一种是收集信息。
第一种的重点在于个人经历。比如,ProPublica 和 NPR 曾于2017年合作发表过一篇关于产妇去世的报道。产妇死亡率看起来只是几个数字,但背后却是许多家庭的眼泪和辛酸。当记者想挖出更多细节的数据时,却发现没有人在做记录。因此,他们采用了众包的方式,通过社交媒体、众筹网站找到潜在的受影响家庭,并投递调查问卷。随后,他们将收回的问卷和公开讣告交叉比对,最终确认了至少450例产妇死亡案例。
偏软的选题也可以使用这个方法。比如《纽约》杂志曾经制作过一篇纽约爱情地图,读者可以提交自己在这个城市里经历过的爱情故事:第一次相遇在哪个酒吧、第一次约会在哪家饭店等等。
国内的澎湃新闻也在去年做了一个类似的众包项目,收集汶川地震的记忆。用户参与这个项目的方法很简单:点开链接,简要填写自己的信息,再留下故事即可。如果没什么想写的,也可以直接浏览别人的故事。另外,读者也可以一键在朋友圈分享自己看到的感人故事——同时吸引更多人来填写自己的经历。
汶川这个项目一共收到了1857篇故事。之所以能收集到这么多记忆,主要原因可能有两个。第一,是刚好遇上汶川地震十周年的纪念;第二,当时这个项目的链接出现在澎湃网站和客户端的各个地方,读者很容易接触到。相关的人物特稿结尾也会附上项目入口链接。读者在读完别人的故事后,会更愿意分享自己的故事。
另一种众包的方式侧重于收集客观信息。和第一种不同,这种项目收集到的信息,编辑部必须重复核查、确保准确和真实。核实并不是容易的活,尤其是在本来就没有公开数据库的情况下,因此信息众包比故事众包的难度要更高。
不过,经过这次大会上数据新闻记者 Kavya Sukumar 的“调查报道背后的众包项目”一课,让我明白信息众包的难点还不仅仅在核实上,整个项目的设计都需要下更大的功夫,并不是单单一张调查问卷就能完事的。Sukumar是一名活跃在新闻行业的工程师,她以自己在Vox参与过的一次调查报道为例,给我们讲解了众包项目的设计思路。
Vox在 2017-2018 年间发表了一系列关于医院急诊室费用的调查报道。这个选题的灵感来自一封读者邮件。这名读者抱怨自己因为一次急症治疗花了近千美元,而整个治疗内容就是在婴儿脚上贴了个创可贴,全程仅29分钟。
随后记者发现,根据美国法律,医院不能立刻告诉患者急症室的医疗费是多少,因为担心患者会为了高昂的医疗费而放弃治疗。但这带来的另一个问题就是,医院想开多少钱的账单都行。
Vox 的记者们认为,因为这样的一条法规存在,遇到类似问题的家庭肯定不只一个。然而,没有一个现成的急症医疗费数据库能够回答这个问题。思考再三,他们决定创建一个众包项目,以照片的形式来收集遭遇类似情况的读者的急症室医疗账单。
让读者直接提交账单照片,我觉得是很聪明的一个做法,因为这样可以确保信息的真实性。如果只是让读者填写几个数字,那姑且不说故意乱填的,哪怕是不小心输错的也很难被发现。
但是,这随之而来的更重要的问题就是,你怎么能获得读者的信任,让他们愿意把医疗账单拍给你?Sukumar 分享了三个贴士。
第一,在收集读者信息时,需要明确说明你需要的信息是什么,让读者把不需要的部分遮盖起来。
在设计提交信息页面前,Sukumar团队已经试读过多种类型的医疗账单,总结出了不同的医疗账单的信息点位置。据此,他们撰写了一份完整的操作指南,根据这份指南,读者很快就能找到必要信息的位置,再遮盖住其它部分,拍照提交即可。
为了确保读者的安全感,收集信息的界面最好还能强调对用户隐私的重视,例如说明一旦离开了提交信息的界面/App,就不会再继续跟踪用户的行为。
第二,制作团队本身也要考虑到信息泄露隐患。越少人能接触到原数据越好,这样原数据泄露的可能性也就越小。
另外,网络工具可能也会泄露数据。比方说,假设你用问卷星来收集数据,再用石墨文档来储存数据,最后用RAWGraphs来可视化数据,那么三个工具都可能成为数据泄露的渠道。
为了防止泄露,Sukumar的团队专门创建了一个App收集数据,以及一个数据库系统来存储数据,只有4-5个人拥有密码。当然,如果你所在的机构没有这样的技术团队,可以考虑用一些安全性比较高的数据库工具。
第三,不要一味地索取却不回报,要让读者收到反馈。
这一点是我之前没想到的。一旦操作起长线项目,我的发稿量很长一段时间都会保持在零。那段时间里,我虽然看起来没有声音,其实每天都挣扎在数据库的海洋里无法自拔。
参与者不知道你在做什么其实是众包项目的大忌。如果这个项目长期没有动静,前期读者可能还会有兴趣提交信息,但后期大家很快就会丧失参与的动力,也无法有效地吸引到新的读者加入。
因此,在操作众包项目时,我们要常常问自己:读者给了我们数据,我们能给(及时)回报他们什么?
Vox这个项目的作法是,在收集信息的过程中,如果记者发现了什么有趣的点,就可以立刻采访然后出快稿。这样的话,虽然整个项目时长一年,但隔三差五地就能有新的稿件出来。同时,他们还会鼓励提交过信息或感兴趣的读者订阅Newsletter,一旦有什么新的稿件出来,就会通知他们。这样的话,读者就会知道这个项目一直在有序地进行中,时不时会有结果刊出。而且,当这些新闻故事传播开来时,更多拥有同样经历的人们就会主动地加入到这个项目中,提交自己的医疗账单。
除了主动提交,信息众包还发展出了更高级的形式。ProPublica在2017年进行过一个众包计划,请读者帮助他们收集 Facebook 的政治广告以判断这些广告的投放是否真的存在偏见。这是要让读者一个个截图自己看到的政治广告吗?不,ProPublica为此专门开发了一个chrome插件,安装后将自动收集读者 Facebook 上的政治广告。
在国内,最接近的大概是2017年底北京进行安全隐患清理时,多家媒体和独立媒体人联合做的这份北京安全隐患清理整治分布图。当时由于官方没有公布”安全隐患“的实际地点,这些媒体遍根据官方网站、媒体报道、网络图片等方式整理信息。更重要的是,他们还和志愿者合作,收集志愿者现场拍摄的照片。最终收集到了北京135处安全隐患清理整治点的有效信息,绘制出了这些地图。当时文章发表的时候,最下方还留了一个邮箱,鼓励读者继续提供相关信息。
我认为,这类众包项目在中国之所以很少见,原因可能有两点。
首先,地方媒体没有那么有活力。美国的众包新闻之所以能形成巨大影响力,离不开地方媒体的支持。ProPublica和Vox两个都是全国性媒体,发起一个众包项目,可以通过各个地方报纸、地方广播,甚至是地方有影响力的媒体人来宣传项目,吸引读者参与。如果在中国,一个全国媒体发起一个众包,除了在自家平台上拼命宣传,还有什么别的方法能让各个地方的读者知道呢?
另外,读者习惯不同,对媒体的信任度可能也不太一样。众包新闻一般周期较长,短时间内也看不到什么实际的回报。提供自己的数据给媒体对读者来说可能是个不对等且存在潜在危险的交换,也不会得到什么实际好处。所以在进行众包项目时,媒体应该思考如何让读者信任自己,以及如何做好信息安全工作等。
Sukumar在课程结束时还说了一句让我很有感触的话,在这里也分享给大家。她说,千万不要盲目地开始一个众包项目,这不是一个「万金油」。最适合众包项目的场景就是,「你知道事情一定是这样的,但你没有证据。」(something you knew is true, but you don’t have evidence)
附录:
作者邹熳云,澎湃新闻数据记者,她也是第11届全球深度报道大会奖学金获得者。