在新闻中使用人工智能的前景是值得期待的,但同时也有些被夸大炒作之嫌。如今,许多大的媒体平台对读者进行个性化推荐的时候,都已经开始借助完成过深度学习的机器的帮助。至于文字自动生成技术,更是让体育、商业新闻的报道实现了自动化。但是,要想让 AI 投入到深度调查的报道中,可能还得再花一点时间。为什么在深度调查报道中运用 AI 技术这么困难?近期内,深度报道的哪些环节最适合使用 AI 技术?为了回答这些问题,我做了一些研究。
目前,关于将 AI 应用到新闻业、尤其是深度调查新闻业的可能性讨论主要集中在「找到规律」、「建立联系」、甚至是「发掘社会问题」上。人们期待着这种新式的算法会在数据分析阶段为记者节约大量时间,甚至令对于之前新闻人来说难度过大、成本过高的某些故事类型变为可能。
然而,真的可以做到这样吗?有些时候,答案是肯定的。AI 技术在一些案例中发挥了重要的作用。举例来说,《亚特兰大立宪报》(Atlanta Journal-Constitution)在报道医生与性侵犯案件时,曾经从来每个州份、合计超过100000份的医生纪律报告中爬取数据,以寻找医生对患者实施性侵犯以后却仍被允许继续执业的个例。经过个性化深度学习的算法最后从中找出了6000份有疑似记录的报告,之后记者们再对这6000份经过筛选的报告进行人工的阅读与分类。
BuzzFeed 也运用过深度学习训练的算法从公开航班数据中找到政府侦察机;《华盛顿邮报》运用情感分析(sentiment analysis)算法从美国国际发展局(AID)的审计报告中找出被从较早版本里移除的负面发言。但像这样成功应用的个案只有十几个,为什么在深度调查报道中应用 AI 如此之难,在我看来有以下几点原因:
首先,你没法把调查项目所有的相关资料全部都扔进一个数据库中,然后让 AI 去处理。即便「公开」资料通常也需要你亲自从网络上爬取、向资料提供方发出请求,或协商、或购买(有时候还不能一次性购买,必须要分批购买)。对于记者来说,即便将这些资料整合到一起也是一项大工程。
同样,AI 系统所需的费用并不便宜。在商业分析中投入的 AI 系统,由于业务的连贯性,通常可以重复使用。但对于记者,每报道一个故事,可能就要新建一个系统。《亚特兰大立宪报》为一个故事分析完100000份医生纪律报告以后,也没有另外100000份报告可供分析了。
而且,我们必须要有一个现实的预期。在调查报道中的很多问题,即便使用目前最新的技术也是没法解决的。现阶段的 AI 还没办法去总结法律文件或自动化地调查一批公司。因为如果想要创建解决这类问题算法,就需要向机器投喂大量经过特别处理的训练数据,而要搜集到这么大量的数据是很困难的。例如如今的自然语言处理系统(NLP)就要求成千上万、乃至上百万的范例来进行深度学习。
最后,还有准确性的问题。你是不能以一个95%准确率的模型,就去控诉某人犯下恶行的。这就意味着 AI 系统得出的结果还需要人工检查。这样一来,自动化带来的速度优势也就所剩无几了。
更为本质的问题的是,让电脑去发掘「新闻价值」是几乎不可能的任务。什么内容才有新闻价值?这个问题的答案需要结合大量的社会与政治处境作为判断依据,而机器是不可能考虑到这么多的。要想解决这个问题,你可以手动地去设定一个「故事标准」,比如《洛杉矶时报》(The Los Angeles Times)设立的一个「震灾新闻 bot」,这个机器人会对所有震级3.0及以上的地震自动撰写新闻快稿;又或者你可以基于前人的决策模式来对你的系统进行训练,路透社的 News Tracer 对一条推文的新闻价值的判断,就正是基于这种训练。然而,那种根据编程来判断的硬性筛选标准,在实际操作过程中通常会显得不够灵活、比较武断;而如果以人类决策作为学习样板来训练系统的话,人类本身对于报道选择所带有的文化偏见又会潜移默化地被带到人工智能中。在这个问题上,是没有一个完美的解决方案的。
不过,人工智能拥有的数据清理/数据预处理功能,还是能够帮你避免调查报道中很多问题的。对于大多数的项目,准备数据花的时间比真正分析数据的时间要长得多,这就意味着如果数据准备实现了自动化,它将带来的效益将会是会很高的。
在调查报道中,AI 能够被用来解决一些数据预处理工作。举例来说,美国电视台一般会公布本台播放的政治广告数据,但数以百计的本地电视台公布数据的方法与格式都大有不同。每一届选举,都会有成千上万份这种 PDF 文件公开。但想要将这些数据给从 PDF 中抽出、然后放到 Excel 工作表里,用普通的工具是很难办到的。我的实验证明了「深度学习」(现代人工智能系统的基础技术,已被运用于自动驾驶汽车与机器翻译等领域)的方法能够对这类不同形式、杂乱无章的原始数据进行分析。
AI 也能够被用来去将多个数据库给合并到一起。同一个个人,或同一间公司的名字,可能在不同来源的不同数据库中以不同的名称重复出现——有时候是因为拼写错误,有时候是因为这一实体本就有多个名称。在这种情况下,记者就有必要去用其他信息(例如地址等)来确认两种表述是否指涉的是同一实体。换句话说,这种将两种表述联系到一起的能力要求宏观上的判断能力,而在这种能力上机器学习目前的表现尤为出色。完成过深度学习受训的机器能够自动地将这类指涉同一实体的不同表述给联系起来。
总而言之,我对于在调查报道中使用 AI 是乐观的。虽然我们现在还没法让电脑去帮我们从数据当中找到故事,但在制作数据新闻时,AI 能在数据的准备、清理阶段帮助记者们大大提高工作效率,耗时费力的数据预处理也就能轻松许多了。
对于这一议题更详尽的讨论,可以参见我所写的《让人工智能帮助深度报道》一文。
Jonathan Stray 是哥伦比亚大学的一位计算机记者,他也在该校教授计算机和新闻学硕士的课程。他是《纽约时报》、《大西洋月刊》、《外交政策》等媒体的撰稿人,也曾任美联社驻香港记者。