財新經驗:做新聞,如何搞定搜索與數據

Print More

財新網自2013年下半年開始嘗試進入數據新聞領域,近兩年來在該領域推出了一批代表性作品,並在其間積累了一些經驗。數據新聞,無疑應從數據出發。

在“如何搞定搜索和數據?”方面,分享一些財新的實踐經驗。

對於涉及人物、公司關係類的調查報道,在查找、核實與人物、公司、地點、時間有關的線索時,財新記者於寧以案例介紹了她的實踐體會。(註:於寧是《財新周刊》財經主筆,曾參與《周永康的紅與黑》、《奢侈動車》等調查報道的采寫)

據於寧介紹,“全國企業信用信息公示系統”是查詢公司信息的重要入手點,該網站下設全國31省市的地方企業信息查詢子系統。與此同時,各地方也建有自己的企業信用信息公示系統,目前做的比較好、查詢功能較為強大的是深圳北京

national company registry

於寧以周永康報道時的一個調查(註:《白手套米曉東》)為例,當時首先通過“北京市企業信用信息網”查詢“米曉東”(此人為周濱的白手套),查到一系列與米曉東有關的公司,其中包括“陝西秋海汲清石油科技有限公司”。

mi xiaodong

來源:北京市企業信用信息網

隨後又通過“全國企業信用信息公示系統”中的“陝西”子站查詢上述公司,從中發現了商人王樂天的身影。進一步通過查詢工商資料最終摸出了周濱岳母詹敏利持股該公司的線索。

wang letian

來源:全國企業信用信息公示系統(陝西)

在查詢米曉東的過程中,還發現了匯盛陽光等幾家公司的註冊地都在“北京市朝陽區來廣營鄉奶白路3號”的相鄰位置,於是對這幾個地點進行了進一步調查,產生了後續的相關報道。

naibailu

來源:北京市企業信用信息網

在報道過程中,對於關鍵人物,會通過搜索引擎查詢人物姓名及特徵描述,在大量結果中翻閱出該人物出席過的活動、參加過的會議、與其一同出現過的重要人物等等。在周永康報道中關於周永康妻姐賈曉霞在加拿大的活動信息就是通過搜索引擎發現的。對原鐵道部長劉志軍案中的關鍵人物丁書苗的報道,也採用了類似的方法。

此外,對於上市公司,財新網還會通過金融數據終端查詢企業財務報告、股權變更和重大事項,Wind是較常用到的終端之一。但若公司沒有上市,此類信息則較難獲取。在Wind終端中還有幾個被較少發掘的數據庫,包括中國併購庫、中國PEVC庫、中國企業庫等,可以從中搜尋非上市公司的身影,但目前數據尚不全面也不夠穩定,只能作為參考。

對於數據驅動的報道,財新會首先從數據的可得性出發,再考慮新聞價值。數據——故事——呈現,遵從這樣的基本邏輯。因為如果倒過來的話,鑒於中國目前的開放數據仍然十分落後的狀況,往往徒有一個好點子,但最後無法落地。

官方網站無疑是最可以被信賴的數據源(數據造假是另外一件事),以財新的幾個作品為例,《三公消費龍虎榜》數據來自90多個政府部門的網站,《百年星空諾貝爾》來自諾貝爾獎官方網站,《中央紀委巡視風暴》《紅色通緝令》均來自中央紀委監察部網站

red notice

需要指出的是,中國政府部門網站公布的數據仍然十分不規範,這給數據採集造成一定困難。不規範表現在幾個方面,一個是數據存放位置不規範,同樣是三公數據,有的部門放在“要聞”,有的部門放在“通知公告”,有的部門放在“政務公開”。這種情況下,需要用到站內搜索,但搜索質量參差不齊,且需要數據採集人員對選題本身有一定認知,比如直接搜“三公”可能搜不到想要的目標,改搜“部門預算”則可以搜到。

另一個不規範是數據格式不規範,目前見到過的數據格式包括頁面文字、PDF、Excel、DOC、JPG等,需要採集人員在轉換成統一格式的時候更加仔細。

國外的信息公開和數據意識要好得多,聯合國、OECD、世界銀行、世界衛生組織都有相對易用、完備的數據源供下載。

其次可以信賴的數據源是權威的數據終端。數據終端是專業數據公司提供的PC軟件,國內使用較多的是Wind,國外較多用彭博。財新的宏觀經濟、金融市場類的選題數據大部分來自Wind金融終端,雖然是二手數據,但由於機構本身是專業的數據公司,其數據來源自官方機構,並且以技術實現數據同步,避免了人工錄入過程中的差錯。在數據格式以及數據的批量導出上數據終端較官方機構具有明顯優勢,所以在實際工作中經常被用到。

對於媒體信源,需分情況討論。新華社、人民日報為代表的官媒是可以採信的來源。尤其是地方官媒,在報道地方政府消息方面有獨特優勢。舉例來說,每年初需要了解各地上年經濟數據和下年經濟目標的時候,地方統計部門的數據經常較為滯後,但相關數據會在地方兩會的工作報告中披露,而地方官媒對此類報道有絕對優勢。此外不建議輕易採用別家媒體整理的批量數據,因為很難掌握數據採集過程。但可以以其他媒體的數據為線索,找到最終的第一手數據。

還有一個信源是信用等級高的第三方機構,包括諮詢公司、調查公司、會計師事務所、高校研究機構等。除了機構本身要足夠權威以外,還需關注每一份數據的採集背景,尤其是調查類數據,調查了多少樣本、樣本與整體的特徵是否一致、調查方法、數據解釋,都需要足夠嚴謹。美國民調機構皮尤中心的調查數據經常引起爭議,一個原因就是樣本被質疑不具有代表性。

好的數據應該是連續的、完整的、格式統一的,數據新聞需要有足夠量的數據支撐,如果數據零散,那麼也許只適合普通的文字報道。

數據新聞的作用之一是數據挖掘,通過可視化展現出此前未被發現或未被驗證過的趨勢性結果,因此當然可以先有了結果再找到論據來支撐,但也許還存在不支持這樣結果的其他論據,這是值得探討的。

在《三公經費龍虎榜》的項目中,在最終結果里曾發現有一個部門在某年的人均出國費用奇高,數據和算法均沒有錯,再倒查發現該部門當年的出國費用激增,繼續查看原始文件,發現該部門由於統計口徑改變,將上一年發生的一部分費用計入了下一年,於是出現了上述情況。這要求相關人員懷有數據敏感和好奇心,畢竟有時候,“奇怪”就是一個故事的開始。


作者簡介

photo

黃晨是財新數據可視化實驗室的數據新聞主編。工學學士、經濟學碩士。她曾長期從事垂直財經網站的數據庫產品工作。2010年初加入財新, 先後負責數據庫產品、數字說欄目的策劃和采編。2013年10月加入實驗室,參與眾多可視化作品的策劃工作。

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註