
圖片: Shutterstock
在新聞中使用人工智能的前景是值得期待的,但同時也有些被誇大炒作之嫌。如今,許多大的媒體平台對讀者進行個性化推薦的時候,都已經開始藉助完成過深度學習的機器的幫助。至於文字自動生成技術,更是讓體育、商業新聞的報道實現了自動化。但是,要想讓 AI 投入到深度調查的報道中,可能還得再花一點時間。為什麼在深度調查報道中運用 AI 技術這麼困難?近期內,深度報道的哪些環節最適合使用 AI 技術?為了回答這些問題,我做了一些研究。
目前,關於將 AI 應用到新聞業、尤其是深度調查新聞業的可能性討論主要集中在「找到規律」、「建立聯繫」、甚至是「發掘社會問題」上。人們期待着這種新式的算法會在數據分析階段為記者節約大量時間,甚至令對於之前新聞人來說難度過大、成本過高的某些故事類型變為可能。
然而,真的可以做到這樣嗎?有些時候,答案是肯定的。AI 技術在一些案例中發揮了重要的作用。舉例來說,《亞特蘭大立憲報》(Atlanta Journal-Constitution)在報道醫生與性侵犯案件時,曾經從來每個州份、合計超過100000份的醫生紀律報告中爬取數據,以尋找醫生對患者實施性侵犯以後卻仍被允許繼續執業的個例。經過個性化深度學習的算法最後從中找出了6000份有疑似記錄的報告,之後記者們再對這6000份經過篩選的報告進行人工的閱讀與分類。
BuzzFeed 也運用過深度學習訓練的算法從公開航班數據中找到政府偵察機;《華盛頓郵報》運用情感分析(sentiment analysis)算法從美國國際發展局(AID)的審計報告中找出被從較早版本里移除的負面發言。但像這樣成功應用的個案只有十幾個,為什麼在深度調查報道中應用 AI 如此之難,在我看來有以下幾點原因:
首先,你沒法把調查項目所有的相關資料全部都扔進一個數據庫中,然後讓 AI 去處理。即便「公開」資料通常也需要你親自從網絡上爬取、向資料提供方發出請求,或協商、或購買(有時候還不能一次性購買,必須要分批購買)。對於記者來說,即便將這些資料整合到一起也是一項大工程。
同樣,AI 系統所需的費用並不便宜。在商業分析中投入的 AI 系統,由於業務的連貫性,通常可以重複使用。但對於記者,每報道一個故事,可能就要新建一個系統。《亞特蘭大立憲報》為一個故事分析完100000份醫生紀律報告以後,也沒有另外100000份報告可供分析了。
而且,我們必須要有一個現實的預期。在調查報道中的很多問題,即便使用目前最新的技術也是沒法解決的。現階段的 AI 還沒辦法去總結法律文件或自動化地調查一批公司。因為如果想要創建解決這類問題算法,就需要向機器投喂大量經過特別處理的訓練數據,而要搜集到這麼大量的數據是很困難的。例如如今的自然語言處理系統(NLP)就要求成千上萬、乃至上百萬的範例來進行深度學習。
最後,還有準確性的問題。你是不能以一個95%準確率的模型,就去控訴某人犯下惡行的。這就意味着 AI 系統得出的結果還需要人工檢查。這樣一來,自動化帶來的速度優勢也就所剩無幾了。
更為本質的問題的是,讓電腦去發掘「新聞價值」是幾乎不可能的任務。什麼內容才有新聞價值?這個問題的答案需要結合大量的社會與政治處境作為判斷依據,而機器是不可能考慮到這麼多的。要想解決這個問題,你可以手動地去設定一個「故事標準」,比如《洛杉磯時報》(The Los Angeles Times)設立的一個「震災新聞 bot」,這個機器人會對所有震級3.0及以上的地震自動撰寫新聞快稿;又或者你可以基於前人的決策模式來對你的系統進行訓練,路透社的 News Tracer 對一條推文的新聞價值的判斷,就正是基於這種訓練。然而,那種根據編程來判斷的硬性篩選標準,在實際操作過程中通常會顯得不夠靈活、比較武斷;而如果以人類決策作為學習樣板來訓練系統的話,人類本身對於報道選擇所帶有的文化偏見又會潛移默化地被帶到人工智能中。在這個問題上,是沒有一個完美的解決方案的。
不過,人工智能擁有的數據清理/數據預處理功能,還是能夠幫你避免調查報道中很多問題的。對於大多數的項目,準備數據花的時間比真正分析數據的時間要長得多,這就意味着如果數據準備實現了自動化,它將帶來的效益將會是會很高的。
在調查報道中,AI 能夠被用來解決一些數據預處理工作。舉例來說,美國電視台一般會公布本台播放的政治廣告數據,但數以百計的本地電視台公布數據的方法與格式都大有不同。每一屆選舉,都會有成千上萬份這種 PDF 文件公開。但想要將這些數據給從 PDF 中抽出、然後放到 Excel 工作表裡,用普通的工具是很難辦到的。我的實驗證明了「深度學習」(現代人工智能系統的基礎技術,已被運用於自動駕駛汽車與機器翻譯等領域)的方法能夠對這類不同形式、雜亂無章的原始數據進行分析。
AI 也能夠被用來去將多個數據庫給合併到一起。同一個個人,或同一間公司的名字,可能在不同來源的不同數據庫中以不同的名稱重複出現——有時候是因為拼寫錯誤,有時候是因為這一實體本就有多個名稱。在這種情況下,記者就有必要去用其他信息(例如地址等)來確認兩種表述是否指涉的是同一實體。換句話說,這種將兩種表述聯繫到一起的能力要求宏觀上的判斷能力,而在這種能力上機器學習目前的表現尤為出色。完成過深度學習受訓的機器能夠自動地將這類指涉同一實體的不同表述給聯繫起來。
總而言之,我對於在調查報道中使用 AI 是樂觀的。雖然我們現在還沒法讓電腦去幫我們從數據當中找到故事,但在製作數據新聞時,AI 能在數據的準備、清理階段幫助記者們大大提高工作效率,耗時費力的數據預處理也就能輕鬆許多了。
對於這一議題更詳盡的討論,可以參見我所寫的《讓人工智能幫助深度報道》一文。
Jonathan Stray 是哥倫比亞大學的一位計算機記者,他也在該校教授計算機和新聞學碩士的課程。他是《紐約時報》、《大西洋月刊》、《外交政策》等媒體的撰稿人,也曾任美聯社駐香港記者。