調查記者羅曼·阿寧:我用什麼工具保護隱私和處理數據的?

Print More

English

圖片由羅曼·阿寧(Roman Anin)提供。

在這一期「工具箱」欄目中,我們採訪了33歲的俄羅斯非營利調查新聞網站 IStories 的總編輯羅曼·阿寧(Roman Anin)。

Istories 是 Important Stories(重要的報道)的簡寫,這個網站於今年在莫斯科上線,目前共有13名員工。短短几個月內,它已經調查了各種不同的選題,如反對派政治家阿列克謝·納瓦利內(Alexei Navalny)遭到的迫害國家廢物管理市場的裙帶關係以及可疑的新冠病毒抗體測試

阿寧在摩爾多瓦出生長大,最初的目標是成為一名職業足球運動員。但在17歲時,他因家人移居俄羅斯而離開了足球青年隊。為了保持自己與這項運動的連接,他報考了莫斯科國立大學學習新聞學,希望成為一名體育評論員。2006年,他以體育記者的身份加入了莫斯科著名的報章《新報》(Novaya Gazeta)

《新報》是一家處於水深火熱之中的媒體。長期以來,該報的調查文化非常濃厚,但自2000年以來,已經有6名員工被謀殺。因此,阿寧不是簡單地報道體育賽事,而是很快就開始挖掘足球領域的腐敗故事,包括操縱比賽等。

羅曼·阿寧(Roman Anin)

2008年8月,當他的大多數同事都在外出度假時,俄羅斯-格魯吉亞戰爭爆發了。《新報》派阿寧去前線報道。回來後,他就加入了該報的調查小組,一直到今年年初。在這個職位上,他報道了律師和稅務審計師謝爾蓋·馬格尼茨基(Sergei Magnitsky)揭露的臭名昭著的欺詐案;2014年索契冬奧會的建築合同腐敗醜聞;以及被指控為一個殺手團隊的幕後黑手的阿斯蘭·加吉耶夫(Aslan Gagiyev)。其中一些調查是他與「有組織犯罪和腐敗報告項目」(Organized Crime and Corruption Reporting Project,簡稱 OCCRP)合作進行的,阿寧自2009年以來一直是該項目的成員。

阿寧獲得了許多新聞獎項,其中2013年因對謝爾蓋·馬格尼茨基的報道而獲得奈特國際新聞獎(Knight International Journalism Award),並獲得了俄羅斯調查新聞界最負盛名的三個獎項:阿爾特姆·鮑羅維克獎(Artem Borovik award)、尤利安·謝梅諾夫獎(Youlian Semenov award)和安德烈·薩哈羅夫獎(Andrey Sakharov award)。他還因發起了IStories而獲得了國際記者中心2020年的奈特開拓者獎(International Center for Journalists’ 2020 Knight Trailblazer Awar)。他對馬格尼茨基的報道引發了多個國家的刑事調查,而他對索契運動會的報道讓時任總統梅德韋傑夫下令調查。

阿尼寧在斯坦福大學度過了2018-19學年,他是該年度奈特新聞獎學金的獲得者。在那裡,修讀了了編程和心理學課程——他說,這兩種技能對新聞業都很有用——也正是在這一年,他產生了創辦 Istories 的想法。

VeraCrypt

VeraCrypt 可以讓你創建加密文件夾,在其中你可以安全地保存數據。在使用VeraCrypt之前,我使用了TrueCrypt,這是我從朱利安·阿桑奇那裡學到的。」

「我來倫敦是為了在維基解密中檢索美國駐俄羅斯大使館的電報。為了傳輸數據,我不能把它直接保存在我的筆記本電腦上或者雲端;我必須妥善保管它。為此,我將數據放在加密的文件夾中。如果有人檢查了我的筆記本電腦,他們將無法找到相關文件夾。即使他們找到了,他們也無法進行解密。」

「現在我用一個開源的工具VeraCrypt 來做同樣的工作。你可以在電腦上創建加密文件夾,如果需要,也可以上傳雲端。它還允許你偽裝文件夾,讓它們看起來不像數據文件夾,而是像應用程序或電影。」

「我每天都用VeraCrypt加密我所有的調查工作。」

LastPass

LastPass 可以儲存加密過的密碼,它還可以在多個設備間同步,透過它可以在你每個設備上的安全儲存密碼。由於有了主密碼,你可以在LastPass上訪問你的所有密碼。這款工具可以讓你使用許多複雜的密碼,並頻繁地更改它們,而不必記住所有的密碼。我每天都在使用它。」

「我知道安全有多重要,因為我曾經被黑客攻擊過。黑客的手法非常複雜,我的SIM卡先是被封鎖了,他們複製了一張一樣的卡;然後他們請求恢復我的Gmail賬戶密碼到我的手機號碼上,於是他們在複製的 SIM 卡上收到了密碼。我的建議是,在腐敗和專制的地方,在兩步認證中,除了密碼之外,永遠不要將電話號碼用作恢復密碼或進行兩步驗證的方式。(我會用 Google Authenticator 作為進行兩步驗證的工具)。」

「但像我這樣的情況很少出現,大多數人被黑客攻擊是因為他們使用弱密碼,更糟糕的是,在不同的賬戶上使用相同的密碼。LastPass 可以幫助你避免這樣的情況發生。你可能會想:如果LastPass的服務器被黑的話,我所有的密碼都會被破解嗎?答案是否定的。LastPass的服務器確實被黑客攻擊過,但沒有一個密碼被泄露,因為LastPass本身不存儲密碼,只存儲密碼的“散列”版本(hash version),無法被破譯。」

OpenRefine

OpenRefine 可以讓你清理混亂的數據。我在大多數情況下使用 Python 來進行這項工作,但是對於不會編程的人來說,OpenRefine 確實是一個很棒的工具。」

「想象一下,你有一個關於國家合同的電子表格,有數百萬行。在如此大量的數據中,肯定會有一些錯誤,例如供應商的名稱,或者日期會混淆,或者一些行會丟失,或者一些價格會以不同的格式書寫。那你要如何進行匯總呢?如何計算平均值呢?你必須首先將所有數據放在相同的格式中,我們稱之為清理數據。OpenRefine 讓你可以輕鬆做到這一點。」

「我在報道國家廢物管理市場的裙帶關係的故事中使用了 OpenRefine,因為我有成千上萬行關於不同地區不同垃圾填埋場的數據,而我想分析一下最大的垃圾填埋場在哪裡。」

「首先,我使用了一個名為 Tabula 的程序,它可以讓我將 PDF 文件中的表格提取到Excel中。然後我將這些 Excel 表格上傳到 OpenRefine 中進行清理。沒有 OpenRefine,我將不得不檢查電子表格的每一行,以確保所有的內容都是相同的格式。在過去,我常常花幾個月的時間來清理數據。」

IStories 團隊。羅曼·阿寧供圖

編程

「我通常會用 PythonJavaScript 兩種語言見編程。我主要使用Python來收集和分析數據,並執行一些自動任務,而我使用JavaScript——尤其是JavaScript的D3庫——來對數據進行可視化。」

「我們在 IStories 的第一個報道是關於政府採購合同的。在最近的俄羅斯憲法公投的背景下,我決定分析政府在這上面花了多少錢,具體花在了什麼地方。」

「沒有編程,這是不可能做到的,因為我已經整理了40萬份公開的合同。我需要分析它們,找出最大的單,對它們進行分類,找出其中的規律。我用 Python 分析了這些數據,也讓這篇報道成為我們最受歡迎的文章之一。在調查中發現,俄羅斯政府花了很多錢購買了成千上萬的口罩和防護設備供投票站官員使用,而醫生在新冠疫情爆發期間卻缺乏防護設備,這也告訴讓你看到俄羅斯政府的優先事項是什麼。」

「我在這個故事上花了大約一周時間,如果沒有編程,這是不可能的。我怎麼可能在一周內分析40萬份合同?」

「在那次調查中,我用 Python 編寫了一個小程序,它可以抓取聯邦政府採購網站每天發布的信息,並將這些數據與公司登記處的信息相結合。然後,它會對這些合同中提到的供應商進行了一項很表面但非常有用的分析:公司是什麼時候成立的?有多少人在公司工作?公司的營業額是多少?誰擁有這些公司?等等。然後,這個小程序會將結果輸出成一個HTML文件,每天通過電子郵件發給我和我的記者,這為我們節省了很多時間。」

「我以前有空的時候,就會時不時的去查一下政府的採購數據庫。現在一切都是自動完成的。我只需幾秒鐘就能讀完自動生成的文件。」

俄羅斯商事法院數據庫

“俄羅斯擁有世界上最好的商業法庭公共數據庫,完全免費,而且可以在中間以關鍵詞進行搜索。在大多數法院數據庫中,你只能搜索當事人的姓名,但在這個數據庫中,你可以在裁決全文中搜索任何關鍵詞,然後以PDF格式輸出結果。

但該數據庫不能搜索向法院提交的材料或聽證會的記錄,只能搜索判決書。但這些判決書總結了案件的情況,並附上了法官的判詞,所以它們是非常有用的資源。

「當我在調查一家公司時,我會在這個數據庫中搜索它的名字,看看它是否是否曾捲入了任何訴訟糾紛。」

「有一次,我突發奇想,在數據庫中以 ‘欺詐’、‘數十億’和‘俄羅斯天然氣工業股份公司’作為關鍵詞進行檢索,看看俄羅斯天然氣巨頭俄羅斯天然氣工業股份公司是否參與了任何涉及數十億盧布的欺詐案件。我發現了一個案件,在這個案例中,稅務官員正在起訴俄羅斯天然氣工業股份公司的一家子公司,因為它通過一家離岸公司以高價購買設備。我最後寫了一篇關於此事的報道。」

聯合國商品貿易數據庫和 Import Genius

「我最喜歡的在線數據庫之一是聯合國商品貿易統計數據庫(United Nations Comtrade Database),它可以讓你看到不同國家之間的進出口數據。它非常容易使用,並允許你按特定的進口/出口國家、交易的產品和時間段進行搜索。」

「在俄羅斯對不同的歐洲國家實施制裁後——俄羅斯不會從實施制裁的國家進口一些產品。如果你想知道這將如何影響俄羅斯的進口,可以在聯合國商品貿易統計數據庫中,將俄羅斯設置成進口國,將其他相關國家作為出口國,然後它就會告訴你有多少產品從相關國家進口到了俄羅斯。我經常使用這個數據庫,包括了解俄羅斯將武器出口到哪些國家(非官方交易不會被包括進這個數據庫)。」

「我上次使用它是在8月4日黎巴嫩首都貝魯特發生硝酸銨大爆炸之後。據新聞報道,運載這些貨物的船隻在前往莫桑比克的途中在貝魯特被攔截。我想知道莫桑比克是從哪裡購買這些爆炸物,之後發現其大部分是來自烏克蘭。雖然數據庫沒有顯示這批特定貨物的原產地,但可以向我們展示莫桑比克進口硝酸銨的情況。」

「想了解具體的出貨情況,可以用另一個數據庫 Import Genius,我很喜歡它,但是它很貴,而你只有訂閱才能使用它。(自2020年10月起,每月費率從99美元到399美元不等)
“它可以為你提供具體貨物的數據,以及參與這些進出口的各方的數據。你可以在上面搜索你感興趣的公司名或交易登記號。」


Olivier Holmey 是住在倫敦的記者兼翻譯。他的作品曾發表在《泰晤士報》(The Times)、《私家偵探》(Private Eye)、《尼曼新聞實驗室》(Nieman Lab)等媒體上。

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註