我們進入了一個言必稱“大數據”的時代,以致這個出現不過兩年的概念似有被濫用之嫌。但無可否認的事實是,全球各地政府、企業,乃至個人每天都在製造着海量數據。這些數據中又往往隱藏着“獨家猛料”,吸引着越來越多的記者投身其中,進而在新聞行業中催生了數據新聞(Data Journalism)這一時髦的分支。
大數據時代的記者有必要懂得如何獲取“結構化的信息”,通過整理並準確地分析數據來挖掘出有價值的新聞。全球深度報道網為此專門整理出一份數據新聞實用清單,幫助大家推開大數據之門。如果你有任何最新資料,都歡迎你告訴我們:hello@gijn.org。衷心感謝你的支持。
入門必讀
數據新聞在上世紀80-90年代以計算機輔助新聞報道(Computer-Assisted Reporting)的名義首次出現在新聞行業。
1989年在美國成立的計算機輔助新聞報道協會(The National Institute for Computer-Assisted Reporting)是一個致力於在全世界培養深度報道記者的組織。除了開展新手訓練營等培訓項目,協會還設有電子圖書館和練習用數據庫,並每年舉辦一次計算機輔助新聞報道研討會。
協會將有關資料集結出版,現已成為一部暢銷書籍:《計算機輔助新聞報道實用手冊》(Computer-Assisted Reporting: A Practical Guide)。手冊的網絡版可供讀者免費閱讀。
對於剛接觸數據新聞的朋友,美國的Poytner網站以“五個秘訣”和“十個工具”教你如何效地分析數據。
在英國,深度報道新聞學中心(The Center for Investigative Journalism)也出版了一本有關數據新聞學的手冊。CIJ還在其網站上分享了大量關於數據新聞的書籍、指南和視頻資源。
著名的數據驅動新聞學(Data Driven Journalism)網站準備了非常全面的學習資料,值得參考。
你也可以在國際記者網上找到數據新聞有關的課程、輔助工具和其它資料。
Hacks/Hackers 是一個聚集大批程序員和深度報道記者的全球性組織,目標是推動用數據發掘有影響力的報道。該組織通過各地分的支機構向記者提供培訓課程。
The Investigative Dashboard網站上囊括了數據挖掘、數據可視化以及人際關係網絡分析等方面的應用工具。
不得不提的還有數據新聞學手冊(Data Journalism Handbook)是一本由來自世界各國的數十位數據新聞學專家合作編纂而成的教材。這是一本由世界各國的數十位數據新聞專家合著的教材。你可以在網上免費下載包括中文在內的各語言版本。
數據挖掘
數據新聞記者並不一定要成為程序猿,但懂得通過計算機語言運行一些簡單的數據處理程序,甚至親自動手編寫一小段算法可幫助你更好地理解數據背後的邏輯,也更有利於在開展數據新聞項目的時候加強和技術部門同事之間的溝通。
對計算機一竅不通?上網總會吧?那就夠了。
Code Academy是一個提供互動式編程培訓的免費網站,手把手地教你使用常見的程序語言,包括HTML, CSS, JavaScript, Python, Ruby, 和PHP.
麻省理工大學官方網站提供了若干免費在線課程,講解如何使用Python,Java和C++這些計算機語言編寫程序。
計算機教育專家Michael Mart在網上發布了一本開源的培訓教材,供人們自學Ruby on Rails。
想知道如何從網頁和各種電子文檔(尤其是PDF)抓取文本數據?新聞網站ProPublica開列出一份清單,囊括了相關的若干實用工具和自學教程。
此外,scraperwiki是一個抓取數據的在線工具,,Online Journalism網站發布了一篇相關的入門指南。
數據分析
Investigative Reporters and Editors上有將PDF文件轉換成普通文本格式文件的簡單教程。
如果想將PDF文件中的電子表格導出為Excel表格,則可以參考加拿大麥吉爾大學的網上教程。
School of Data提供了從如何找到合適的數據庫,到基礎的Excel使用技巧,再到如何利用挖掘到的數據完成新聞報道的一整套解決方案。
程序開發員Dan Nguyen整合了使用Google Refine清洗結構化數據的方法,以及一些視頻教學鏈接。
Github提供了“SQL入門介紹”。
數據可視化
美國統計學家Edward Tufte在可視化信息測繪方面有一些著述和課程,現已成為行業標準。
美國統計學家邱南森創立了Flowing Data網站,他同時也是《鮮活的數據:數據可視化指南》和《 數據之美:一本書學會可視化設計》這兩本書的作者。
Visualisationofdata.com 網站提供了信息圖製作指南,以及其他相關信息。
Esri為ArcGIS愛好者準備了一套關於如何使用ArcGIS進行信息測繪的免費課程。
Gustavo Faleiros創建了JEO. JEO是一個WordPress主題模板,供新聞機構、博客博主和非政府組織在電子地圖上發布帶有地圖定位信息的新聞報道。
Peter Aldhous 整合了一套入門教程,是關於如何使用Excel的免費社交網絡插件NodeXL的。
數據可視化目錄是“幫你找到合適的數據可視化方案”的一個持續進行中的項目。
數據統計
一個名為OpenIntro的網站發布了免費的統計學教材OpenIntro Statistics.
加州大學伯克利(伯克萊)分校創建了Knight Digital Media Center,為數據新聞記者提供一整套數據統計方面的在線課程。該課程為期兩天,而且完全免費。
著名在線教育平台Coursera的簽約講師,美國統計學家邱南森創立了Flowing Data網站,其中囊括了一系列數據統計公開課,這包括:
- 衛斯理大學(Wesleyan University)的公開課,Passion-Driven Statistics
- 多倫多大學(University of Toronto)的公開課,Statistics, Making sense of data
- 普林斯大學(Princeton University)的公開課,Statistics One
- 加州大學伯克利(伯克萊)分校(UC Berkeley)的公開課,Introduction to Statistics
此外,以下是我們推薦的若干數據統計方面的經典書籍:
- Damned Lies and Statistics, 作者:Joel Best
- Data Analysis for Politics and Policy, 作者:Edward Tufte
- Designing Social Inquiry, 作者:Gary King /Robert O. Keohane /Sidney Verba
- The Drunkard’s Walk: How Randomness Rules Our Lives,作者:Leonard Mlodinow
- How To Lie with Statistics, 作者: Darrel Huff
- Naked Statistics:Stripping the Dread from the Data, 作者:Charles Wheelan
- The Signal and the Noise, 作者:Nate Silver
- Thinking, Fast and Slow, 作者: Daniel Kahneman
數據新聞博客
數據新聞中文網:由一群熱愛新聞又熱愛數據的志願者創立的專業網站,定期為讀者分析海內外優秀的數據新聞作品、報道數據新聞業界會議、翻譯授權的學習課程及資料、組織線下的講座培訓、介紹國內外的獎學金及工作機會。
財新數據可視化實驗室:成立於2013年10月8日,是結合新聞編輯和數據研發的虛擬實驗室,將數據應用於新聞采編及呈現。他們的目標是做中國最好的數據新聞團隊,做世界一流的數據可視化團隊。
ProPublica Nerd Blog:彙集了世界各地的數據新聞記者和新聞編輯人員的揭秘報道
Nacion Data:這是一個西班牙語的數據新聞博客,它屬於阿根廷的日報La Nación
Online Journalism Blog:英國著名記者Paul Bradshaw的博客,內容涵蓋數據新聞、公民新聞、博客和影客等等
Open Knowledge Foundation:開放知識基金會的博客。該基金會致力於在國際範圍內傳播各種形式的開放知識,並推進這些開放知識的使用
Toledol:一個關於計算機輔助新聞報道的葡萄牙語博客
Computational and Data Journalism:囊括數據新聞領域的最新消息和有關技術的文章
Dajore:主要公布數據新聞學研究進展的博客
Driven by Data:講解數據新聞素材的篩選方法
Vis4.net:信息可視化和數據新聞學方面的雜感
Reporter’s Lab:杜克大學運營的博客,內容涵蓋公共事件報道中的調查工具、報道技巧和研究方法
Tow Center for Digital Journalism:哥倫比亞大學運營的博客,展示新興技術如何改變着新聞業以及讀者對於新聞的消費行為
數據新聞相關書籍
《計算機輔助新聞報道:全面導讀》(Computer-Assisted Reporting: A Comprehensive Primer),作者:Fred Jones/David McKie
《計算機輔助新聞報道:實用指南》(Computer-Assisted Reporting: A Practical Guide),作者:Brant Houston
《計算機輔調查:記者的策略與工具》(Computer-Assisted Research: Information Strategies and Tools for Journalists),作者:Nora Paul/Kathleen A. Hansen
《數據新聞學手冊》(The Data Journalism Handbook),由來自世界各國的數十位數據新聞學專家合作編纂而成。你可以在網上免費下載到該手冊的多語種版本,包括英文版、法文版、格魯吉亞文版、俄文版和西班牙文版
《可視化的新聞故事:計算機輔助新聞報道指南》(Mapping for Stories: A Computer-Assisted Reporting Guide),作者:Jennifer LaFleur/Andy Lehren
《精確報道:新聞報道中的社會科學方法入門》 (Precision Journalism: a Reporter’s Introduction to Social Science Methods),作者:Philip Meyer
數據新聞學會議
美國計算機輔助新聞報道協會(NICAR)創辦了一年一度的計算機輔助新聞報道會議;每年有數百人參與這個會議。此外,協會還提供數據新聞方面的“新手訓練營”。
“數據收穫季”會議(Data Harvest)由Journalismfund.eu,Wobbing Europe 以及FarmSubsidy.org三家共同舉辦。最近一次會議已於2014年5月在比利時布魯塞爾成功召開。
國際新聞節(The International Journalism Festival)每年在意大利山城佩魯賈召開。該活動包括數據新聞學的訓練班。
全球深度報道新聞學會議(The Global Investigative Journalism Conference)每兩年召開一次,並組織一系列數據新聞方面的培訓活動。
加納的數據訓練營(Ghana Data boot camp)是位於加納的數據新聞學培訓機構。受訓人員能學到如何定位、獲取並分析採掘墾殖業的公開數據。