
Photo by Caresse Ley.
上次關於網絡信息採集的文章介紹了“網絡爬蟲”這件利器如何幫助記者從網頁上獲取大量信息。不過在當記者使用網絡爬蟲時,有哪些職業倫理的問題需要注意呢?
在普通人眼裡,網絡信息採集和黑客行為差不多。因此,建立職業道德準則就顯得尤其重要。遺憾的是,加拿大記者協會和和魁北克職業新聞工作者聯合會的職業道德守則並沒有就此作出明確規定。為此,我訪問了一些從事數據新聞報道的同事,嘗試自己尋找答案。
尊重個人隱私
數據新聞記者們所達成的第一個共識是:如果一個機構在自己的網站上發布了數據,那麼這些數據自動就成為公共信息。
“我幾乎每天都在做網絡信息採集。”加拿大記者Cédric Sam表示。他目前在香港《南華早報》工作,之前他曾供職於加拿大《新聞報》(La Presse)和加拿大廣播公司(Radio-Canada)。“我幾乎每天都在做網絡信息採集。”他表示。
他認為,網絡爬蟲和它的編寫者承擔著同樣的責任。“無論是人工複製、粘貼數據,還是通過編程來做,情況並沒有不同。(用程序收集數據)相當於雇了1000個人幫你工作,結果是一樣的。”
不過,政府的服務器上往往還存儲着公民的私人信息。“這種數據大部分是隱藏的,否則就會違反隱私法,”加拿大廣播公司(CBC)程序開發員、百年理工學院和多倫多大學蒙克國際研究中心的新聞教授William Wolfe-Wylie說。
網絡信息採集和黑客之間重要的界限在於:是否遵守法律。
記者不應窺探受法律保護的信息。如果普通用戶如果接觸不到,記者也不應試圖獲取。“對於記者而言,了解並遵守法律的相關限定非常重要。”William說道。
《蒙特利爾公報》(Montreal Gazette)的數據新聞記者Roberto Rocha補充說,新聞人(在網站採集數據時)通常需要先了解用戶條款和使用條件守則,以避免日後陷入麻煩。
在採集網絡信息時,記者還需要核實一個重要的細節:網站根文件夾下的robots.txt文件,裡面說明了哪些信息可供採集,哪些不可採集。比如,這裡有加拿大皇家銀行的相關文件可供參考:http://www.rbcbanqueroyale.com/robots.txt
要不要隱藏身份?
當你以記者身份採訪時,第一件事就是告知對方你的身份和採訪目的。那麼,當記者通過網絡爬蟲向服務器或數據庫發送請求時,也需要遵循同樣的規則嗎?
那麼,當記者通過網絡爬蟲向服務器或數據庫發送請求時,也需要遵循同樣的規則嗎?
對於《渥太華公民報》的國內新聞記者Glen McGregor來說,答案是肯定的。“我把名字和手機號碼都放在http標頭裡,同時還會附上一段留言,‘我是一名記者,現正從這個網頁抓取信息。如果您有任何問題,請撥打我的電話。’”
“所以,如果網站管理員因瀏覽量大增而驚慌失措,以為是遭到黑客攻擊,那麼他就能查出事情的緣由,畢竟我的留言和電話都在那裡。我認為這是符合職業道德的做法,這很重要。”
魁北克大學蒙特利爾分校新聞學教授Jean-Hugues Roy自己也會寫網絡爬蟲程序,他對McGregor的做法表示認同。
不過,並非所有人都同意上述意見。法語網站L’Actualité的主編 Philippe Gohier就會儘可能避免(在獲取網絡數據時)被識別出身份。
“有時候我用網絡代理服務,”他說,“我會改變自己的IP地址和網址的標頭信息,以造成手動抓取而非網絡爬蟲的效果。我盡量尊重規則,但我也在會儘力避免被探測到。”
從某種程度上看,抓取網站數據採集時不亮明身份,就相當於在採訪時使用隱藏麥克風或隱蔽攝像機。魁北克職業新聞工作者聯合會的職業道德守則對此是有一些規定的:
4 a) 暗訪規則
某些情況下,記者可以通過暗訪獲取信息,方式包括:使用假身份、隱蔽麥克風和攝像頭、模糊報道目的、監視、潛入內部等。
這些方式是一般規則之外的特例特殊情況。,只適用於以下情況:
*所收集的信息事關公共利益;例如,曝光應受社會譴責的問題;
* 無法通過其他正常途徑取得或驗證信息,或其他方式已行不通;
*(暗訪帶給)公眾的收益遠遠大於給個人造成的不便。另外,記者必須告知公眾其獲取信息所採用的方式。
對於記者來說,最好的做法是在代碼里標註自己的身份,用網絡爬蟲抓取數據也不例外。但是,如果目標機構會為防止記者得到相關信息,目標機構有可能會改變獲取數據的權限,會通過改變數據的獲取權限來避免記者得到這些數據,那麼,記者在是否表明身份的問題上就要更加謹慎。
有些人可能擔心,自己的記者身份一旦公開,就有被網站屏蔽的風險。其實大可放心——你可以輕而易舉地改變自己的IP地址,以隱藏身份。
有時候,對有一些記者來說,最好先直接申請獲取信息,一旦被拒才考慮是否進行數據抓取。這樣做的一個好處是:如果機構迅速回應並給出原始數據,那你就能節省不少時間。
要不要公布代碼?
透明度是新聞行業的另一個重要問題。沒有透明度,公眾就不會相信記者的報道。魁北克職業新聞工作者聯合會的職業道德守則寫道:
絕大部分數據新聞記者會在報道後附上其使用的數據,這樣的透明的做法能證明他們的報道是基於事實,經得起查證。那麼,如何處理記者們編寫的代碼呢?網絡抓取程序爬蟲的代碼里一個小小的代碼錯誤就會毀掉整個數據分析,所以,這些代碼需要公開接受查證嗎?
對於開源軟件來說,代碼必須要公開代碼。這樣做的主要原因是為了讓其他人參與改進軟件,但同時也是為了讓用戶了解軟件的執行細節,給他們一顆定心丸。
不過,對會編程的記者來說,公開還是不公開,這的確是個問題。
“從某個角度來說,媒體也是一門生意,”Sam說,“如果你(在編程方面)有競爭優勢,能靠它不斷挖掘到故事,那就應該留一手。你不能每次把所有東西都公開。”
Roberto Rocha也認為不應該公開代碼。
不過Rocha有一個GitHub賬戶,他會在上面公開了其中一些代碼腳本。 Chad Skelton, Jean-Hugues Roy和Philippe Gohier也是這樣做的。
“眾人拾柴火焰高,”Gohier說,“我們分享的腳本和技術越多,對每個人的幫助就越大。我做的事情一般人花點力氣也能夠做到,這不是什麼改變世界的難事。
Jean-Hugues Roy表示認同,並補充說記者應允許他人複製自己的作品,就像科學家公開自己的科研方法一樣。
但Roy教授也指出了例外情況。他目前正在編寫一個爬蟲程序,以從SEDAR(電子文檔分析和檢索系統)中獲得加拿大公開上市交易公司的文件數據。
“通常我會公開代碼,但這次就不一定了。它很複雜,我為此投入了大量的時間。”
Glen McGregor的做法和上述幾種有所不同:他不會主動公開自己的代碼腳本,但只要有人表示需要,他就會把代碼腳本發給對方。
記者會盡其所能保護自己的信源,以此獲取對方信任,並期望由此而得到更多敏感信息。但另一方面,他們這樣做也是為了獨自享有把信源。因此結論是,網絡爬蟲程序可以被看作是機器版的信源。
另一個問題是,記者們的爬蟲軟件在未來能否獲得專利呢?
誰知道呢?也許有一天記者們會像保護信源那樣保護拒絕透露代碼。,譬如就像加拿大《環球郵報》記者Daniel Leblanc那樣,就只把自己的信源稱為 “Ma Chouette(我的貓頭鷹)”,而拒絕透露其真正的身份一樣。
畢竟在現在這個年代,爬蟲軟件開始越來越像人類了。
註:尊重網絡架構是網絡信息採集的另一條黃金定律。但與其說這是倫理困境問題,不如說是個技術細節問題:當你想抓取網絡信息時,記得每次在發送請求之間都空上幾秒種,不要讓服務器過載。
本文原載於J-Source.CA,經授權後轉載。
Nael Shiab畢業於加拿大國王學院大學數字新聞碩士項目。他曾在加拿大電台擔任視頻記者,目前是Transcontinental的數據新聞記者。他的Twitter賬號為 @NaelShiab