编者按:本文原刊于路透新闻研究所,全球深度报道网获授权翻译转载。
路透研究所对全球数百名重要媒体人进行调查和访问,于不久前发布了《2022年媒体趋势和预测报告》。报告显示,越来越多媒体都对在新闻中运用人工智能技术(下简称 AI 技术)展现出兴趣。如果你也在思考如何利用 AI 技术进行信息搜集、新闻报道以及更好地实现商业目的,那么阿根廷的《国家报》( La Nación)也许会给你不少启发。这份拥有150年历史的老牌报纸不仅拥有自己的 AI 实验室,还利用这项技术制作了涵盖多个主题的新闻报道。
《国家报》对 AI 技术的运用是始于对阿根廷私有可再生能源的调查。2016年,当时的总统毛里西奥·马克里(Mauricio Macri)启动了一项计划,鼓励私有和跨国资本进入本国的清洁能源市场。而《国家报》的新媒体记者弗洛伦西亚·柯埃略(Florencia Coelho)因获得约翰·奈特奖新闻奖学金(John S. Knight Journalism Fellowship)前往斯坦福大学研修期间,了解到“描绘美国每一块太阳电池板”项目。受此启发,她向编辑室提出了类似的选题,以绘制这个项目启动四年后的进展。
《国家报》的数据小组与西班牙纳瓦拉大学的访问学者马提亚斯·菲力珮(Mathias Felipe)一起展开合作。整个项目主要采用了机器学习和计算机视觉( computer vision)技术,还获得一个专门从事地理空间分析和人工智能的第三方实验室的技术支持。机器学习主要用来识别阿根廷的太阳能农场的形状,而计算机视觉则对所获得的视觉资料进行分析和理解。整个项目共使用了10999张图片来训练算法,处理了700万张图片,分析了278.04万平方公里(107.4万平方英里)的土地。最终结果显示,阿根廷政府的这项政策并没有奏效。
这个项目充满了重重挑战。获取卫星图像的花费不菲,而太阳能农场和一般的农场在卫星图上看起来也差不多,这就需要更精准的图像识别系统。在项目开始的2019年,阿根廷国内还没有足够的太阳能农场图像来训练人工智能,所以团队不得不借用智利的图像资料。柯埃略表示:“这使得我们无法绘制阿根廷的每一块太阳能电池板,因为这需要非常高清的图像,所以我们把范围收窄到太阳能农场。机器学习主要依赖的是形状,这是更容易识别的模式。”
要报道最终的调查结果,《国家报》还需要更多的硬件支持和拥有相关技能的新闻人员,但当时的新闻团队还并没有足够的能力。柯埃略说:“因为没有足够的设备以及计算机能力,我们选择与其他团队合作。数据共享带来了不错的结果。”
分析热门歌曲:陷阱音乐
在太阳能电板上的初次尝试,《国家报》不仅尝到合作的好处,还认识到团队在 AI 技术方面的不足也许会影响报道能力。比如说如果无法测试一个模型的准确度,新闻团队就有可能提不出抓住事件关键的重要角度。于是,编辑部着手组建了一个人工智能新闻室,由记者、数据分析师和开发者等7名工作人员组成。这7名成员都不是全职在这个人工智能新闻室工作,他们需要在平时兼顾其他选题。
实验室的第一个项目是对在阿根廷大受欢迎的陷阱音乐(Trap Music)进行歌词分析,共耗时7个月。主要负责人是加布里埃拉·布尔特( Gabriela Bouret )和黛尔菲娜·阿伦比烈(Delfina Arambillet),柯埃略并没有参加。团队使用机器学习和自然语言处理对 Spotify 和 Genius 网站上共692首歌曲进行了歌词分析,以了解这种音乐的主题、趋势和意涵。AI 技术必须处理一些语言问题,包括分析这种歌曲中独有的词汇。最后,读者能通过一个互动报道,了解到陷阱音乐中常用的词汇,哪些音乐家最爱在歌词中提及自己,以及种种有关该类音乐重要特点的分析。
科埃略认为,团队从这个项目中学到的许多东西不仅可以应用于其它类型的音乐,甚至是不同类型的文本。数据分析师加布里埃拉·布尔特表示:“今天我们探索的是陷阱音乐,但明天我们可以用来研究政治话语或者更多不同的主题。”
编辑部采用新的技术、工作流程和选题,也在影响整个团队的报道风格。布尔特说:“《国家报》是一份非常传统的报纸,早已形成一套自己做新闻的办法。而陷阱音乐是很多年轻人感兴趣的话题,这不是《国家报》惯常会关注的题目。正因为如此,我们得以打破传统,给读者耳目一新的感觉。”
《国家报》的探索也显示,AI 技术主要是依据英语或者发达国家的材料受训。布尔特说:“我们接触到的几乎每个(自然语言处理)模型都是为英语准备的。在研究陷阱音乐时,我们很难找到相应的图书馆资源和程序来帮助我们处理西班牙语的问题。”
分析大选新闻
2021年,AI 技术在阿根廷国会选举中再度发挥作用。《国家报》利用计算机视觉技术来监测投票站发回的电报中的错误。
这次,《国家报》与另一家第三方公司合作,通过开发和训练算法,来识别选票中的不一致之处。选票记录的细节包括每个政党赢得的票数、现场选举监督员的数量等,然后再通过志愿者对不太准确或者上传格式不当的选票记录进行人工核实,以加强算法的准确性。《国家报》同时借助了自己的 VozData 平台。这个平台鼓励读者透过信息公开倡议及大学资源合作进行数据调查。结果表明,95%的选票内容填写正确,但有5%缺少相关信息。
这次的合作使得编辑室更加了解AI技术在不同情境下的作用。科埃略希望这个模型可以用来监测未来的选举,并鼓励选举官员正确填写选票信息。她表示:“让政府知道人们在使用人工智能来监测公开文件的准确性是件好事。”
为 AI 技术挪出时间
报道中运用 AI 技术需要花费不少时间,编辑部遇到的最大挑战之一是判断自己是否有足够的时间去支持项目的完成。《国家报》没有要求实验室一年要完成多少个新闻项目,这取决于具体的报道内容以及团队成员有多少时间花在这件事上。
布尔特说:“这些项目可能需要五到七个月。这么长的时间对很多媒体人来说是很难理解,因为他们总是很忙。所以必须要有耐心。我们每周都会安排一次专门的时间给 AI 项目,不然你永远找不到时间给它了。”
科埃略补充说:“深度报道的记者可以花一年时间来调查腐败或某个选题。所以我们把自己看成利用技术的深度报道记者。目前我们还在探索和学习的阶段。一旦有了足够的积累,相信我们的速度会变快。”
科埃略认为,和第三方人工智能专家、大学院系以及专家的合作,都有利于提升编辑部的研究进度,也会降低使用新技术的成本。这也能为学院或者学术研究提供案例。而创业公司可也可能会开发或者调试自己的人工智能模型,以便更好地推动在新闻业使用 AI 技术。
《国家报》还吸纳了一些第三方资金以支持编辑部的 AI 实验。他们申请了谷歌的一项新闻基金,资助下一个 AI 项目。这个项目从密码强度检查器获得灵感,能自动检测报道,鼓励记者在行文中使用更多体现多样性和包容性的措辞。
AI 视野中的性别和商业议题
在一连串的 AI 实践中,《国家报》意识到内部合作不仅能促进编辑部内部更加支持使用AI技术,也能激发出更多可能性。目前,人工智能新闻实验室正在开发西班牙语版本的“性别差异追踪器”。这个工具最初是为了揭示加拿大线上新闻中在引用信息来源时的男女比例差异。科埃略和她的同事黛尔菲娜通过伦敦政治经济学院组织的“JournalismAI Collab”项目开始研究这个工具,并将其引入《国家报》的编辑室中,以更好地了解新闻中的性别偏见,比如媒体是否会倾向某些话题选择特定性别的受访者。这个工具也有利于媒体的运营团队评估一篇报道的影响力是否会受到性别或者主题的影响。
除此之外,《国家报》还参与了一个人工智能开源项目,目的是通过识别人脸性别,来分析新闻机构使用的男性和女性图像的比例。这个项目最初是用亚洲面孔进行算法训练,《国家报》提供了大约50张阿根廷人和拉美人的肖像照片,提高了算法在肤色和种族检测方面的多样性,使得不同文化背景下的媒体能够有效地利用这项技术。
在《国家报》的 AI 实验中,合作成为一个非常重要的词。目前,他们合作过的对象各种各样,包括第三方的技术团队、商业部门、其他媒体以及读者等等。即使在报纸内部,AI 新闻实验室也体现着团队合作作的重要性。科埃略说:“这些技术很难,所以能和别人一起学习探索是非常好的,即使对方是你的竞争对手,我们可以一起学习新技术,一起在比拼谁在报道上做得更好。更何况,我们本来就在与谷歌、Facebook 争夺读者的注意力。要花5-10年的时间来学习是不可能的,我们需要加快学习和分享的进程,也要和更多国家合作。我们自己当然需要学习,但这些内容对个体来说,实在是太多了。”
Laura Oliver 是一名英国的自由撰稿人。她曾为《卫报》、BBC、The Week等媒体撰稿。她是伦敦大学城市学院网络新闻学的客座讲师,并担任多家新闻编辑部的的内容策略顾问。