身为记者,你是否曾因要阅读上千份文件报告或是整理数百万条资料而感到心力交瘁?现在,你可以将这些机械的工作慢慢交给人工智能了,它可以模仿人类进行学习、推理,并进行自我修正。
对于如何在报道中运用人工智能进行辅助,BBC 的数据记者 Paul Bradshaw 在第11届全球深度报道大会上分享了他的心得。
确定范围
在进行调查报道的过程中,有时你的直觉会告诉你,事实真相比你手头收集到的不痛不痒的资料要大得多,但很难确定这个范围究竟有多大,“我们需要知道有多少人受到了此事影响,或者此事已经持续多久了。”
经过训练的算法能够透过特定的文字模式分析大量的文件,以圈定哪些属于相关联的内容,Atlanta Journal-Constitution 就成功地训练出了能够处理性骚扰案件文档的算法,这则算法得以快速分析大量的相似文件,为记者们提供更多的调查线索。
确定问题
人工智能可以用来确认问题。瑞士广播机构 Schweizer Radio und Fernsehen 基于多种要素规则,成功地训练出了能够检测虚假社交媒体账号的算法,他们使用这则算法去分析一名瑞士意见领袖的粉丝,发现高达他三分之一的粉丝全部都是虚假账户。
了解语境
相比于单单分析词汇,自然语言处理算法(Natural Language Processing,NLP)能够将词汇所处的语境、讲话人的意图也纳入分析研究之中。此前,ProPublica 就分析了竞选活动是如何基于受众的微妙不同,向选民们发送定制化、个性化的宣传电邮的。而这一切都基于算法对于选民的了解。
然而自然语言处理算法也为此受到了批评,因为这种算法是在一个特定的文化语境中被训练出来的,这也意味着它会潜在地带有某种特定的性别和种族偏见。
找到线索
人工智能能够辅助进行语言模式的检测,从而理解文字背后蕴藏的情绪,当然也能够发现改动的痕迹,这在分析上千页的文件时尤其有用。
《华盛顿邮报》曾经取得了美国国际开发署监察办公室的12份审计文件的草案,他们在人工智能的帮助下,将草案与最终版本进行对比,发现任何表达负面情绪、或被理解成为批评的词汇语句,在正式发布版本中都被删去了。
定位机器生成内容
机器生成的内容正在互联网上泛滥,借助人工智能,你可以分辨出哪些是机器生成的内容、哪些是由人类撰写,这会对你的调查报道非常有用。
从大数据中找到头绪
人工智能可以从大型定量数据中挖掘出线索。举个例子,对于工资的分析可以得出哪间学校的老师拿到了最多的钱,或是不同性别的收入差异。“这就能为你找到突破口,让你明白需要找哪些对象进行采访。” Bradshaw 说。
解码专业术语
无论是政府、商业公司,还是 NGO,甚至是记者自己都很喜欢使用专业术语,但这些语言很难被外人所理解的,分析起来就更难了。而人工智能可以对语言和行文模式进行处理分析,将那些专业术语进行解码。
分析关系网
同一个实体在不同的文件中有时候会用不同文字进行指称,人工智能可以对这些关系网进行集中分析,辨认归纳出那些字面名称不一致、但实际上是同一实体的人或机构。举个例子,人工智能可以同一实体的财产记录、税收数据以及其他信息进行比对,即便他们被记录在案的名字不同。
分析无人机与卫星影像
人工智能同样可以对无人机拍摄的影片、卫星影像进行分析,为你的调查提供线索与目标。它们同样能够分析处理传感器的资料,这样你就不需要亲自一条条检视大量数据了。
归纳与总结
OCR 技术能够对摄影、手写或印刷的文字进行阅读识别,进而将其转换为可进行检索的文件格式。人工智能也能用同样的方法处理音像与影像内容,并将完整内容总结成为明了的概要。
这项技术目前还未臻完美,所以你需要对可能出现的错误做好心理准备。不过即便如此,它还是可以为记者大大减负。
制作你的私人助理
你可以使用人工智能来定制个性化服务,生成标题、翻译以及设定智能回复机器人。举个例子,对于一宗全国性的大型调查报道,机器人能够面向境外生成有针对性的、在地化的标题和文章,吸引在地读者。它们同样能够24小时全年无休地与你的读者就故事进行互动,让他们获得更高的参与感。
但人工智能技术当然也有自身的缺陷:它并不是百分百准确的,也会受到来自不同文化的偏见影响。当你使用这种自动生成的内容时,你需要想想看你要在多大程度上保留编辑权限。
“根本上,你需要记住的是人工智能到底还是一项工具。它和任何工具一样,只局限地存在于文化的语境之中。并且,机器学习始终是一种概算与推定,绝对不可能做到百分之百正确。” Bradshaw 说。