報道過程中,人工智能可以如何幫到你?

Print More

Image: Pexels

身為記者,你是否曾因要閱讀上千份文件報告或是整理數百萬條資料而感到心力交瘁?現在,你可以將這些機械的工作慢慢交給人工智能了,它可以模仿人類進行學習、推理,並進行自我修正。

對於如何在報道中運用人工智能進行輔助,BBC 的數據記者 Paul Bradshaw 在第11屆全球深度報道大會上分享了他的心得。

確定範圍

在進行調查報道的過程中,有時你的直覺會告訴你,事實真相比你手頭收集到的不痛不癢的資料要大得多,但很難確定這個範圍究竟有多大,“我們需要知道有多少人受到了此事影響,或者此事已經持續多久了。”

經過訓練的算法能夠透過特定的文字模式分析大量的文件,以圈定哪些屬於相關聯的內容,Atlanta Journal-Constitution 就成功地訓練出了能夠處理性騷擾案件文檔的算法,這則算法得以快速分析大量的相似文件,為記者們提供更多的調查線索。

確定問題

人工智能可以用來確認問題。瑞士廣播機構 Schweizer Radio und Fernsehen 基於多種要素規則,成功地訓練出了能夠檢測虛假社交媒體賬號的算法,他們使用這則算法去分析一名瑞士意見領袖的粉絲,發現高達他三分之一的粉絲全部都是虛假賬戶。

了解語境

相比於單單分析詞彙,自然語言處理算法(Natural Language Processing,NLP)能夠將詞彙所處的語境、講話人的意圖也納入分析研究之中。此前,ProPublica 就分析了競選活動是如何基於受眾的微妙不同,向選民們發送定製化、個性化的宣傳電郵的。而這一切都基於算法對於選民的了解。

然而自然語言處理算法也為此受到了批評,因為這種算法是在一個特定的文化語境中被訓練出來的,這也意味着它會潛在地帶有某種特定的性別和種族偏見。

找到線索

人工智能能夠輔助進行語言模式的檢測,從而理解文字背後蘊藏的情緒,當然也能夠發現改動的痕迹,這在分析上千頁的文件時尤其有用。

《華盛頓郵報》曾經取得了美國國際開發署監察辦公室的12份審計文件的草案,他們在人工智能的幫助下,將草案與最終版本進行對比,發現任何表達負面情緒、或被理解成為批評的詞彙語句,在正式發布版本中都被刪去了。

定位機器生成內容

機器生成的內容正在互聯網上泛濫,藉助人工智能,你可以分辨出哪些是機器生成的內容、哪些是由人類撰寫,這會對你的調查報道非常有用。

從大數據中找到頭緒

人工智能可以從大型定量數據中挖掘出線索。舉個例子,對於工資的分析可以得出哪間學校的老師拿到了最多的錢,或是不同性別的收入差異。“這就能為你找到突破口,讓你明白需要找哪些對象進行採訪。” Bradshaw 說。

解碼專業術語

無論是政府、商業公司,還是 NGO,甚至是記者自己都很喜歡使用專業術語,但這些語言很難被外人所理解的,分析起來就更難了。而人工智能可以對語言和行文模式進行處理分析,將那些專業術語進行解碼。

分析關係網

同一個實體在不同的文件中有時候會用不同文字進行指稱,人工智能可以對這些關係網進行集中分析,辨認歸納出那些字面名稱不一致、但實際上是同一實體的人或機構。舉個例子,人工智能可以同一實體的財產記錄、稅收數據以及其他信息進行比對,即便他們被記錄在案的名字不同。

分析無人機與衛星影像

人工智能同樣可以對無人機拍攝的影片、衛星影像進行分析,為你的調查提供線索與目標。它們同樣能夠分析處理傳感器的資料,這樣你就不需要親自一條條檢視大量數據了。

歸納與總結

OCR 技術能夠對攝影、手寫或印刷的文字進行閱讀識別,進而將其轉換為可進行檢索的文件格式。人工智能也能用同樣的方法處理音像與影像內容,並將完整內容總結成為明了的概要。

這項技術目前還未臻完美,所以你需要對可能出現的錯誤做好心理準備。不過即便如此,它還是可以為記者大大減負。

製作你的私人助理

你可以使用人工智能來定製個性化服務,生成標題、翻譯以及設定智能回復機器人。舉個例子,對於一宗全國性的大型調查報道,機器人能夠面向境外生成有針對性的、在地化的標題和文章,吸引在地讀者。它們同樣能夠24小時全年無休地與你的讀者就故事進行互動,讓他們獲得更高的參與感。

但人工智能技術當然也有自身的缺陷:它並不是百分百準確的,也會受到來自不同文化的偏見影響。當你使用這種自動生成的內容時,你需要想想看你要在多大程度上保留編輯權限。

“根本上,你需要記住的是人工智能到底還是一項工具。它和任何工具一樣,只局限地存在於文化的語境之中。並且,機器學習始終是一種概算與推定,絕對不可能做到百分之百正確。” Bradshaw 說。

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註