數據新聞也能做深入調查?意大利數據項目步驟+工具剖析

Print More

數據新聞只等於炫酷的可視化效果和繁複的數字列表?意大利數據新聞項目Confiscati Bene從充公物品的公開數據挖到黑手黨消費記錄和政府處理資產的方式,告訴我們可以用數據和可視化做出深入、系統的調查。項目創始人Andrea Nelson Mauro撰文分享項目實現步驟,並提供當時所用的數據工具以作參考。


文前導讀:Confiscati Bene是何項目?

2015年12月中旬剛剛上線的Confiscati Bene是開創性的數據新聞合作項目,旨在深入調查目前存放在歐盟、由歐洲各國當局繳獲的價值40億美元的物品。一個國際記者團隊和他們的合作夥伴通過創建歐洲充公財產的數據庫,解答充公資產再分配過程中的問責難題。

houreseizedairbnb

2006年已被充公,卻依舊公開買賣的藍色海岸別墅

他們發現,位於意大利邊界的藍色海岸別墅在2006年被充公,但8年後畏罪的別墅主人卻依舊在Airbnb上向外出租這套房子,這個蹊蹺事件只是歐洲充公房屋問題的冰山一角。2014年,歐洲政府從意大利、德國、西班牙、法國、英國和威爾士的犯罪團伙手中沒收了價值20多億歐元的物資。若是將地理範圍擴大到整個歐洲,這一數字還將上升到40億歐元:每個團伙內部都有團規和黑話,而黑手黨和犯罪團伙只說自己非法交易的黑話,預計能幫他們每年獲得約1100億歐元的利潤。

Confiscati Bene(顧名思義,指“完全充公”)已獲全球深度報道網成員歐洲調查報道基金(JournalismFund.eu)的支持。項目主要內容可參見http://eu.confiscatibene.it

Dataninja.it項目(也是全球深度報道網的成員)的創始人Andrea Nelson Mauro在本文分享了意大利項目組織的細節。他們團隊成員來源廣泛,記者、活動家和技術人員均參與其中。Mauro分步闡釋調查過程,全文刊載於19份意大利報紙,並傳播到歐洲各地。文章介紹了調查使用的多種工具,涉及網頁信息採集、內容處理、數據挖掘和編程等。


2015年9月5日,我們項目團隊在意大利迎來了一個“出版日”:我們對意大利黑手黨充公資產的調查在全球性報紙L’Espresso,及其出版社Repubblica-L’Espresso旗下的18家網站上同步發布——下面這張在線地圖列出了這些網站的名字。我們以不同的地區為單位,調查了當地被沒收充公的建築物和公司數量、這些資產的擁有者、以及政府用何種方式把這些充公資產返還給意大利民眾。此項調查從2015年7月份開始,對我們來說,這是一個實踐數據新聞的絕佳機會。

Confiscati Bene

Confiscati Bene項目的網站頁面

當時,我們在Niemanlab的網站上讀到邁阿密大學視覺新聞學、奈特基金會客座教授Alberto Cairo發表的文章《數據新聞需要提升自身標準》,覺得文中提到的很多有趣建議特別受用。文章稱 FiveThirtyEightVox.com上的一些數據新聞項目有些言過其實,它們應該“用更嚴謹的科學態度處理數據”。確實,數據新聞需要更深入的分析和調查作為支撐。

屏幕快照 2016-01-14 15.34.15

Cairo在文中提及的問題也正是我們運營數據新聞網站Dataninja也時常碰到的。在我看來,如今數據新聞過太多描述性統計、數據可視化、預測分析以及網頁特效。(就是很多朋友一看到就會發出“哇哦!特效誒!”感嘆的作品,以及分分鐘都能發布地圖作品、但從不顧及新聞價值的“地圖專業戶”。)

1. 起步:抓取公開數據,挖掘新聞點:

Confiscati Bene是一個參與性項目,旨在提高黑手黨等秘密組織的充公建築和財產的重複利用效率,以分析官方數據和公民監督項目的數據為基礎,調查了充公資產的現狀和未來使用潛力。(來自Confiscati Bene官網 )幾年前,我加入了意大利“Spaghetti Open Data”社區。2014年3月,我們在一個編程馬拉松活動中,開發了Condiscati Bene的首個版本。

屏幕快照 2016-01-14 12.43.53

一個產品小樣是怎麼的一步步變成成熟作品的呢?

Condiscati Bene創建的第一步就是獲取數據,所有數據都抓取自一間擁有充公資產數據庫的機構的官方網站。機會難得,這下我們不僅能發布數據,還可以利用我們的新聞和數據技巧提升項目質量。因此我們加入項目團隊,為亟需更新的黑手黨資產目錄建立了在線數據平台。之後,我們閱讀了議會條款、挖掘多種報告和文件,由此得知了大量充公資產信息,團隊成員繼而用項目的郵件列表加以共享。

團隊合作相當重要。要是沒有團隊共享的幫助,我自己花多久才能找到這些資源呢?要是我們為記者提供了充足機會,他們能幫我們改善多少呢?實際上,和記者以外的團隊成員並肩作戰,工作效果更為顯著。隨後,我們組建了由記者、活動家、科學家參與的多元背景團隊,積极參与在全國和當地由公民發起的打擊黑手黨監控協會。成員貢獻自己專業知識,調查目前財產使用情況、管理措施和未來使用價值。

【小貼士:Condiscati Bene最初的數據框架是如何搭建的?】

從國家沒收資產管理局的HTML抓取原始數據,用數據統計軟件Open Refine建立結構化數據集。項目網頁基於DKAN(公開數據門戶,可以輕鬆發布多種機讀文件格式、用API分享數據集,調整大型數據集輸入設置)建成,互動式可視化效果由Recline.js javascript數據包運行。內容發布已獲得CC BY 4.0許可證,這就意味着你可以在許可證准許範圍內重複使用我們的成果。

屏幕快照 2016-01-14 15.49.56

2

Spaghetti 公開數據(SOD)是以開放格式發布公開數據的意大利公民組織

2. 進階:建立“內容篩選器”,細化數據分類:

在七月底,我們已經組建了一個三人記者團隊並開始了調查。(團隊成員包括Andrea Nelson Mauro ,即作者本人, Alessio CimarelliGianluca De Martino)。雖然我們不是數據領域的專家,但是為了更好地理解數據所代表的含義,我們閱讀了3000多頁不同社會組織和觀察機構的文件報告。通過匹配結果和線索,我們用這些文件創製了“內容篩選器”,從中選取最有價值的新聞議題。例如,我們發現意大利政府和歐盟為沒收充公資產的公共機構提供了六百萬歐元資助,監控沒收的物資,專門建立一個收集相關信息的大型數據庫。但是沒人做出什麼成果,沒人知道這些錢花在了什麼地方,甚至沒人見過這個項目。

該項目的相關技術和活動如下:

• 數據挖掘:這一部分在調查里比重龐大。我們同時挖掘官方文件和網絡信息,以鎖定符合的結果和統計數據,輔以從沒收物資的公共機構抓取的數據。有時,你需要集中精力才能精確判斷出物資目前的沒收狀態。例如,物資現在到底是被截獲?沒收?依法凍結?還是歸到NGO名下了?

• 地緣分類:為了把這些充公資產標註在地圖上,我們需要繼續開發一款可視化工具。這款工具由Alessio Cimarelli開發,完全基於Leaflet, D3js, OSM Nominatim等開源工具製成。我們以意大利不同地區為單位,僅僅展示了當地數據的絕對值,沒有使用人口或者其他維度的數據去標準化處理。我們之所以這樣做,主要是因為希望勾勒出概況:告訴大家黑手黨在哪裡花了錢,大城市和小城鎮間有什麼差別。

• 數據篩選: 我們認為報紙應該報道過所有資產沒收案件。因此我們從報紙檔案庫整理出所有的新聞報道,並根據地區分類。另一個數據來源則是資產被沒收的重要商人。經過匹配統計結果和量化數據,我們就能夠描繪出不同秘密政黨(例如黑手黨、克拉默、光榮會)在不同地區的分布概況。

• 複審校對:團隊合作能夠有效發現錯誤,我認為把草稿分享給項目的其他成員效果更好。

3. 擴展:加大宣傳,擴充數據,打造“數據庫新聞”

文章發布後,我們把數據上傳到由DKAN處理的數據目錄,把數據返還給Confiscati Bene。作為項目團隊的成員,我們致力於不斷改進項目,收集其他數據以擴展項目版圖(例如擴至整個歐洲地區)。經19家報紙報道,我們不僅成功傳播了項目里的新聞故事,也向公眾傳遞了數據本身。我們也還在不斷更新數據。雖然項目的最終結果未知,但是我們正在努力推動、提升質量,說不定你還能聽到更多Confiscati Bene的最新消息。

本文原載於DataNinja.it,經授權轉載。

3-1Andrea Nelson Mauro是數據新聞記者,Dataninja.it和Datamediahub.it的創始人,SpaghettiOpenData.org 和OpenDataSicilia.it的成員。

翻譯/程一祥       編輯/周煒樂 王一葦

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註