近年,數據新聞的熱潮有增無減,吸引着無數行業內外的弄潮兒。傳統記者如何在數據時代轉型?毫無新聞基礎的數據愛好者如何躋身炙手可熱的數據新聞行列?數據科學在線教育平台DataCamp的記者Karlijn Willems,最近在DataCamp發表博文,詳解了數據新聞的概念,並分享了豐富的學習資源與建議,以供有志從事數據新聞、尤其是從零基礎開始希望通過自學成才的人士參考。以下,深度君為你編譯整理了Willems提到的“八步”自學計劃與各類資源。
ProPublica副總編Scott Klein說過,一個好的數據記者應該具備這三點素質:新聞學技巧,設計才能,以及編程頭腦。聽起來很簡單。那麼,對記者的教育背景有何要求嗎?“新聞學技巧”、“設計才能”和“編程頭腦”的具體含義又是什麼呢?
Klein表示,在ProPublica的數據團隊里,大多數人的確是有新聞學位的,但那並不是必要條件。來自數學或計算機科學背景的數據記者也比比皆是。“對一個想讓世界變成更好地方的數學精英來說,新聞業可以說是最好的歸宿。”Klein說。
無論你來自任何教育背景,只要具備或煉得Klein所提到的三種技能,你都有機會成為一名數據記者。
但這些技能並不那麼容易掌握。事實上,沒有幾個大學課程會教你那些技能,大部分情況下你只能依靠自學。除了MOOC、大數據大學課程(Big Data University)或一些數據記者開設的個人工作坊,很多數據技能培訓都價格不菲,並且有的培訓只對媒體里的職業數據記者或數據團隊開放。
因此,如何自學,決定成敗。
這裡主要為數據新聞入門者整理一份自學計劃,總結為八個步驟,下文還有更細緻的計劃分解和相關資源介紹。需謹記,這份計劃只是入門貼士,每個人應當根據自己的教育背景和學習習慣再作調整。
- 建立廣泛的知識儲備;
- 堅持寫作;
- 學習一些編程語言;
- 了解數據新聞的操作流程;
- 建立個人工具箱;
- 開始建立你的個人網絡;
- 堅持學習;
- 去追求你夢想中的數據工作!
1.建立一個廣泛的知識儲備
建立知識儲備的辦法因人而異,其中一條路徑是廣泛涉獵,通過各種渠道了解未知知識。同時,保持一份好奇心,以激發你發現和學習新鮮事物動力。
廣泛的知識儲備不僅意味着要對時事熱點有全面了解,還包括掌握數學與統計方面的基礎知識。Willems建議數據記者和編輯都應該上一些統計課程。OpenIntro和DataCamp就有相關課程可參考。
若想積累數據新聞方面的背景知識,Willems推薦了以下學習材料:
— Scott Klein講數據新聞史,視頻地址在此。
–數據新聞佳作推薦,從數據同行的經驗中學習:
- ProPublica–正在消失的星球(A Disappearing Planet),作者 Anna Flagg;
- Bloomberg—美國最危險的工作(The Deadliest Jobs in America),作者 Christopher Cannon, Alex Mclntyre 和 Adam Pearce;
- 《衛報》—解密美國國家安全局(The NSA files: Decoded),作者Ewen MacAskill, Gabriel Dance, Feilding Cage和Greg Chen;
- 伊拉克戰爭日誌可視化(Visualizing the Irap war logs),作者Jonathan Stray和Julian Burgess。
2.不斷寫作
瞄準特定的受眾,結合不同媒介的特點,快速準確地表達主題思想,傳遞數據的信息——這些都是數據新聞寫作的難點。Willems整理了一些在線課程,為你的寫作指點迷津(針對英文寫作):
—EdX:EdX上有很多新聞學方面的內容。“Journalism for Social Change”和 “English for Journalists: Key Concepts”都是入門好課。
—Coursera:不僅有一般的新聞入門課程,還細分到不同的新聞專題。
—Mediabistro和《衛報》的大師班。
3.學習一些編程語言
學習簡單的編程並不僅僅是為了挖掘信息,而更重於呈現信息。選擇何種編程語言,需看你要做哪一種數據故事,或是哪一方面的數據工作。網頁製作,信息挖掘,還是建立數據模型?對於編程入門者來說,或許最好的方式是先每一項都淺嘗,再根據自己的興趣深入學習某一種技能。
在網頁製作方面,精通JavaScript、CSS和HTML人才當下最吃香。EdX和Journocode都有相關教程。
另外一門市場需求很高的技術就是Django(Python)和Ruby。CodeSchool上關於這兩門語言的課程不能更全了。
數據記者入門清單上也絕對少不了R、SAS、SPSS和Python 。較以上介紹的語言,這幾種更適合用來做數據分析與建模。DataCamp的R入門和Python入門課程,比較適合初學者。SAS與SPSS則可分別通過點擊鏈接獲取。
與一般的數據科學研究無異,數據新聞的操作流程也包括數據挖掘、數據整理、數據分析、數據可視化和報道。然而,數據新聞會更偏重於報道和敘事,而非建立數據模型。
–可視化方面的好書推薦:
耶魯教授、數據科學家Edward Tufte的著作;
The Functional Art: An Introduction to Information Graphics and Visualization (《不只是美:信息圖表設計原理與經典案例》,已翻譯為中文),作者
Information Dashboard Design, 作者Stephen Few。
–數據分析:
The Signal and the Noise: Why So Many Predictions Fail—But Some Don’t,作者Nate Silver。
–數據挖掘、整理與可視化:
R和Python學習資源整理
數據工具層出不窮,讓人眼花繚亂。如何選擇適合的工具?Willems表示,記者不必十八般武藝樣樣精通,但需具備快速學習的能力和意願。
根據以上流程,Willems推薦了一些工具,讓你的數據工作事半功倍。
–建立個人工作空間
開始編程的第一步,一個方便易用的代碼編輯器必不可少。你可以先在VIM、TextMate、Sublime Text,或者像Rstudio、Spyder這樣設計較完善的集成開發系統上初試身手。還可以考慮安裝Git或其他版本控制系統(versioning control system)來管理你的源代碼。
–獲取數據
數據是展開任何工作的基礎,因此你必須知道從哪些渠道獲取數據。
第一種渠道是通過記者的人際網絡。
信源對於收集數據至關重要,因為通常記者會更容易發現故事而非數據。有了故事,就意味着有了尋找數據的方向。
其次是通過公開數據平台。
另外,推薦數據門戶(Data Portals)和數據中心(Data Hub),這兩者共收錄了11,000多個全球公開數據庫。
《衛報》的數據博客也尤其值得入門數據記者參考。
想更多了解如何利用公開數據,公開數據研究院課程(Open Data Institute Courses)和歐洲數據門戶(European Data Portal)的e-learning上有很多不錯的項目。
獲取數據庫,還可以通過郵件訂閱,如美國調查記者編輯協會的NICAR數據庫。
掌握SQL對進行數據庫檢索大有幫助。去學習使用MySQL, PostgreSQL或者SQL Server吧。TutorialsPoint上有詳細教程。
除了現有的數據庫,記者還可以抓取網頁信息,以獲得數據。這時就需要用到Python和R技能了。
最後一招,別忘了還可利用FOI(Freedom of Information“信息自由”)請求權,來獲取政府公共部門與機構的相關記錄。
–將得到的數據儲存到個人空間
儲存數據,最基本的就是使用Excel。進階級別的,可以使用編程語言,把數據上傳並保存成.csv、.txt或其他格式的文件。Python和R的兩款爬蟲:
和
,還有import.io,都用於從網頁上抓取數據。如果要抓取PDF文件上的數據,Tabula是所需工具。
–數據處理
數據處理的意思是以更好地分析為目的,對數據做適當的改動、清理和重構。Python的和
程序包,R的
和
程序包都是數據處理的神器。在清理結構冗雜的數據集方面,OpenRefine可謂功能強大而又易於上手。也推薦DataWrangler和CSVKit。
–數據分析
R和Python的或
可以建模。另外,DataRobot,Knime和RapidMiner這三個在線平台也能幫你發掘數據的聯繫,建立相關模型以便分析。
–數據可視化
信息呈現,是敘事的重要一環,一些數據可視化技能必不可少。不太會編程也能“玩”起來的的可視化工具有Tableau、Olikview、TileMill、infogr.am、 Google Fusion、QGIS, ArcGIS等。如果你是JavaScript、Python或R語言大牛,那麼使用D3.js、、
或者
製圖對你來說就不在話下了。
–記錄你的發現
Tableau或者Qlikview都可以創建儀錶盤。信息圖表方面,Adobe Illustrator、Adobe Indesign或者Adobe Photoshop都是常用製圖工具。對於Python和R使用者,你可以把代碼和可視化存於“筆記本”,如Jupyter 和R Markdown文檔。
6.開始建立個人網絡
想成為一名數據記者,建立個人網絡有助於找故事靈感和各種指導。
以下是數據新聞界“大咖”的推特名單,值得關註:
此外,你還可以加入Reddit群組或者LinkedIn,以便跟進最新的數據新聞。推薦Reddit上的小群/r/theydidthemath和/r/datasets。
再者,可以在這個Meetup網頁上留意你所在地區附近的數據群組線下活動。通過Data Driven Journalism或European Journalism Center,你也可以了解你所在地區的一些數據比賽或大會。
Knight-Mozilla Open News在線社群聚集了不少創新新聞開發者、設計師和數據記者,同樣推薦。
–關注一些有趣的數據網站
政治和新聞博客類:FiveThirtyEight,《紐約時報》的The Upshot,ProPublica Nerd Blog;
數據可視化:Eagereyes,FlowingData;
數據記者和專家的個人網站:Maarten Lambrechts,Alberto Lucas Lopez,John Burn-Murdoch等。
–聽聽相關播客
這個名叫Data Stories 的播客網站專門講數據可視化;ProPublica總編Scott Klein曾分享過他們團隊如何做數據新聞;Partially Derivative和FiveThirtyEight的播客都不錯。
—閱讀相關書籍
數據新聞相關書籍有很多,在此推薦兩本:
Getting Started with Data Journalism,作者 Claire Miller
Numbers in the Newsroom: Using Math and Statistics in News,作者Sarah Cohen
–其他學習資料
美國明尼蘇達大學數據新聞教授MaryJo Webster的教學材料整理;
R,Python在線教程。
–動手嘗試
先開始獨立做一些小項目:找一些數據,嘗試分析,製作可視化,並寫下你的發現。在Kaggle和DrivenData這兩個網站上,除了能找到許多學習資源,還可以發掘有意思的數據項目,或投稿加入數據競賽,大展身手。
下一步,嘗試建立個人博客,發表作品,展示你的能力。這還會成為你簡歷上亮眼的一筆。
8.去追求你夢想中的數據工作吧!
完成了上述幾個步驟,是時候考慮正式申請數據記者這份工作了。
幾個找工作的網站推薦:News Nerd Jobs,Indeed.com,NICAR listerv,Mediabistro Job Listings,Linkedin,還有Journajobs。
最後的建議:
對所有數據新聞入門者的最佳建議,就是如Maarten Lambrechts所說,“開始動手做數據新聞吧!”
最後送上幾條小貼士:
不要氣餒。萬事開頭難。剛起步時必定會遇到各種各樣的問題,但千萬不要放棄。要從實踐中學習,而這需要一段過程。
從小地方起步也不要緊。有些媒體的數據團隊是很小,可是又有什麼關係呢,“小處”也有大學問。
慢慢來。要能判斷出某些項目的價值需要經驗的積累。有時你可能會花很長時間在一些數據上,到頭來卻沒有發現任何故事。同樣,建立個人網絡、熟悉整套操作流程都需要長時間的積累。
編譯/梁思然
編輯/Ivan Zhai
想了解更多數據新聞資源,敬請繼續關注深度網分享。
推薦閱讀: