期待合作:跨境報道中的數據挖掘

Print More

aaaa2-771x509過去幾年,數據和文檔挖掘在調查報道中的巨大潛力已初見端倪。精通科技的記者組織,譬如團伙犯罪和腐敗行為報道項目(OCCRP)和全球調查記者同盟(ICIJ),成立自己的報道團隊,做了大量令人驚嘆的跨境報道,包括OCCRP調查洗黑錢的報道和ICIJ的離岸金融報道項目。OCCRP自己還開發了新工具,例如VIS Investigative DashboardOverview

但我們需要做得更好。調查新聞的軟件有大量重複產品,也錯失了很多機會。不少扶持技術發展的小金額補助催生了大量新工具,但是真正廣泛應用的卻寥寥無幾。比如,光是用來分析社交網絡的工具就有七十多個。還有其它工具用來分析、處理文檔、清理數據等等。大部分是開源工具,其完備性、可用性和使用率參差不齊。技術開發團隊未能掌握核心環節,如可用性測試、敏捷開發流程(agile processes)、可持續的商業模式。很多工具的解決方案看上去很不錯,其實仍在尋覓需要解決的問題。
datamining-336x240

調查報道軟件開發的碎片化帶來下列影響:大多數新聞編輯室仍無法完成非常基本的知識管理任務,譬如給新文件進行數字化歸檔,便於日後再搜索和查詢。工具沒起到作用,也沒有互操作性。最終,要麼拖慢報道、要麼增加報道成本,甚至可能讓整個報道不了了之。時至今日,商業軟件世界仍將調查報道遺忘在角落,因為這部分市場狹窄、用戶群單一。Nuix和Palantir這類工具價格昂貴,相對孤立,無法滿足報道特定故事的需求。

不過,調查報道記者們調查新聞的技術開發者已經懂得如何在跨境合作的網絡中工作。OCCRP以及其它相關組織從以數據驅動的協作新聞報道項目中獲得了不少寶貴經驗,集中體現在以下幾個方面:

可用性

我們不可能開發沒人想用的軟件。絕大多數調查報道記者在處理基本任務時仍然未能獲得技術支持,例如在共享的數字存儲庫中歸檔新信息、查看文件、做筆記或是查詢一串公司名稱等。若要加快新聞產出,我們需要理解並保障這些核心工作流程,讓用戶頻繁使用、做測試。只有以上基本功能完備了,才有可能成功開發高級功能。

“生產”成果

首先要把自己看成是系統的整合者,而不是開發者。要為不懂技術的終端用戶收集整合已有平台,方便他們使用。這樣我們從中獲取經驗,了解需要寫什麼新代碼。從以往經驗來看,我們需要運營一個中心網站(因為用戶上手輕鬆)和可獨立安裝的服務器(很多用戶出於安全考慮,有此需求)。

協作調查

記者要想知道其它組織有沒有他要查的某人或某公司的信息,就需要一個聯合的搜索機制。如果查到匹配,記者可以與對方協商,查看原始材料。這兩個步驟被稱為“Who Got Dirt?”模式,已經在跨境調查社群中獲得了廣泛認可。(一個我們稱之為“Who’s got dirt?”數據API建立了這樣一個功能,該項目是開放數據基金會資助的“Influence Mapping”項目的一部分。該小組彙集了技術專家、研究人員和記者,開發一種簡單的方式讓來自不同信息來源的公司和人員信息更加豐富。請參見國際記者網《Who’s got dirt: 機器人能夠勝任調查性報道》)

可持續發展

如果捐款人不再資助了,誰來為這些開支買單呢?我們認為至少從開始就得保證有人負擔邊際成本(即賣出去的產品的毛利和變動成本),譬如讓用戶支付軟件服務費。雖然這些錢不足以支付源源不斷的開發費用,但是這樣做可以了解用戶願意給什麼掏腰包,這對開發新市場至關重要,也是我們一直以來都忽略的。

互操作性和延展性

Influence Mapping項目為社交網絡結構化數據處理樹立了行業標準,我們應該支持。Overview的性能證明,它能結合可擴展分析的API(應用程序界面),應用於眾多不同的項目。這個軟件本身應該開放源代碼,用以推動合作,避免寡頭和特定供應商獨霸市場。

我們提倡在調查新聞領域建立一個聯合信息的架構,這早已不是新鮮話題。有兩點能說明這想法指日可待:首先,眾多開發員和用戶對此發表意見,集思廣益。其次,現有系統的成功能幫我們定義和劃分項目的規模。有益的架構已經初見規模,互操作性計劃也得到了論證。

眾多項目和工具各有千秋。Influence Mapping的郵件列表彙集了想以新聞調查分析社交網絡的人,正致力於設定信息交流標準。作為公司註冊集合存儲庫的OpenCorporates,也不斷發展壯大。Investigative Dashboard已經在歐洲新聞社區中樹立品牌,提供有價值的研究服務,攻克數據存儲的難題。Document Cloud成功發展成文檔存儲和發表的平台。Overview在使用可視化插件API的情況下,成功對大文檔集合作延展性分析。整個國際新聞社區在跨境報道中汲取經驗,並一致認同“who’s got dirt” 聯合搜索模式的的重要性。

下一步是要召開首屆調查報道知識管理大會(the first conference on Knowledge Management in Investigative Reporting)。如果你也感興趣,請告訴我們。我們還有很多工作需要做,譬如現有軟件的可用性、開發團隊之間的合作、可持續發展規劃等等,但是上面列出的共同目標是個重要開端。我們不想把目標定的太高,但想確保關鍵特徵界定明確,經過驗證。

我們想召開的是小規模會議:調查報道知識管理的第一次會議。這個活動將集合重要的開發者、記者們,一起完善問題界定,計劃如何發展。OCCRP和Influence Mapping項目已經承諾要出力支持。敬請關注。

不過我們已經在談了。這篇文章的草稿版已經在OCCRP、全球深度網、全球調查記者同盟, Overview, Document Cloud, Global Witness, 和Open Corporates傳播。這些組織都認為我們提出的問題是實際存在的,而且需要解決。我們想同大家一起討論需求和解決方案。如果你也感興趣的話,請告訴我們。

— Jonathan Stray jonathanstray@gmail.com
— Drew Sullivan drew@occrp.org


Stray-336x336Jonathan Stray是獨立記者和計算機科學家。他為《紐約時報》、美聯社、《外交政策》、ProPublica和Wired撰稿。他現在領銜開源文檔集分析系統Overview的開發,並在哥倫比亞大學教計算機新聞課程。他曾駐香港、柏林和舊金山報道新聞。他曾在香港大學新聞及傳媒研究中心修讀新聞碩士課程,並曾在中心開設計算機新聞課程(computational journalism)。

drew-1Drew Sullivan是資深記者和媒體發展專家。他在東歐和歐亞工作十年。2004年,他成立了波斯尼亞和黑塞哥維那調查報道中心( Center for Investigative Reporting in Bosnia-Herzegovina),並曾歷任總監、編輯和顧問編輯。他合作成立了聯合調查新聞中心的區域性聯盟OCCRP,目前擔任該組織的顧問編輯。

編譯/張雯          編輯/周煒樂

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註