巧婦難為無米之炊,數據記者若無法找到想要的數據,從數據中挖掘故事也就無從談起。特別在亞洲,相對而言,很多國家和地區的政府數據仍然不夠透明;同時,也因數據集的結構、格式不一致、不規範等問題,導致數據可用程度較低。亞洲的記者們應如何查找本地區的數據呢?在上月的美國亞裔記者協會年度會議上,馬來西亞數據記者、data-n.com網站創辦人Kuang Keng分享了他的搜查思路,以及包含大量地區數據的數據庫清單。
除了在網絡搜索引擎上輸入某個主題或關鍵詞,如何更巧妙快速且精準地收集數據?Keng提供了以下思路:

Kuang Keng在美國亞裔記者協會上作分享。
收集數據的主要渠道
- 信源:由某組織內部人員泄漏的數據。
- 政府門戶、政府報告:亞洲地區很多政府報告數據都以pdf格式發布。
- 高級搜索:掌握谷歌的高級搜索也是有效獲取數據的一種方法。
- 提交信息公開申請:各地信息自由法規定差異。
- 國際性數據門戶:有時,即使政府不向本國公眾公開某些數據,他們還是需要遵循國際規定,向國際性組織提交相關數據。這些數據會更統一、標準化,因此也更可靠、更方便與其他國家數據作比較。
- 研究人員、學術期刊:學術研究機構的研究人員通常會掌握某些領域的大量數據。他們為研究收集了這些數據,最終與學術論著一起發表——通常閱讀者寥寥。研究人員一般都很願意和記者合作,因為媒體報道可以讓他們原本或許少人問津的研究獲得更多關注。
- 非營利組織:同上,非營利組織的調研數據也非常有用。
- 監管/法定機構:非政府機構如律師工會、醫生協會等行業性管理組織,他們會收集會員的數據,如個人信息、針對會員的投訴等。
- 記者同行:有的同行可能曾經或正在跟進相似的故事或主題,向他們尋求幫助或一起合作吧。
- 爬取網頁數據:有些政府數據存在於上千頁的文件當中,寫一個爬蟲程序來抓取比手動梳理靠譜多了。
- 眾包:在移動網絡時代,所有網絡用戶都可以成為你的數據和信息來源。但這個辦法的難點在於如何核實收集到的信息。
- 購買。
經濟類數據庫推薦
亞洲開發銀行(Asian Development Bank)
亞洲開發銀行網站上收錄了亞太地區48個國家和區外19國的宏觀經濟數據和社會數據指標。
經濟合作與發展組織(Organisation for Economic Co-operation and Development)
作為由35個市場經濟國家組成的政府間國際經濟組織,OECD提供相當全面的數據分享,包括農業、教育、就業、健康、貿易、稅務、金融、能源、環境以及更多類別,同時可分國家和主題檢索。
OpenDataSoft是一個幫助企業用戶快速發布、共享和重複使用數據,並開發新應用的網絡平台,現有10,000+個數據集向用戶開放。
環境類數據
世界資源研究所(World Resources Institute)
世界資源研究所(WRI)是一個全球性研究機構,目標是以研究成果推動政府、企業和公民社會在改善自然與社會環境上的實際行動。WRI重點關注氣候、能源、糧食、森林、水源和可持續城市六個議題,除了整理數據集,製作地圖、各式圖表和各類視覺資源以外,還會發布高質量的研究報告。所有和數據和研究成果都遵循傳統的學術標準,以保證客觀與標準,並完全開放。
如果在其數據庫datasets.wri.org上找不到想要的數據,讀者還可聯繫data@wri.org申請。
其中文網站上可以找到更多與中國相關、更及時的研究報告與數據。
公眾環境研究中心(Institute of Public and Environmental Affairs, IPE)
用過“蔚藍地圖”App的讀者應該都知道IPE。這家公益環境研究機構專門收集、整理和分析政府和企業公開的環境信息。網站上可以查詢實時環境地圖,了解全國範圍內空氣、水質、廢氣源、廢水源等污染數據。
Global Forest Watch(GFW)是一個提供監測森林數據和工具的在線平台。GFW的交互觀測地圖,可讓用戶了解世界各地森林變化的實時信息,分析和調查變化趨勢。
網站收錄了中國和東南亞地區的大量數據,所有數據都可以表格形式下載,方便用於製作地圖或GIF動圖。
Global Land Cover Facility是一個有關土地覆蓋科學的研究中心,重點利用遙感衛星數據和產品獲取從地方到全球系統的土地覆蓋變化。其中的數據不僅包括某地的植被覆蓋情況,還涵蓋地震、洪澇、乾旱歷史等地質信息。
Planet OS 提供獲取高質量氣候與環境數據的渠道,數據來源包括美國國家航空航天局(NASA)、美國國家海洋和大氣管理局(NOAA)、歐洲哥白尼海洋環境監測中心(Copernicus)等。
全球各地統計局網站,維基百科都幫你列出來了。
Github
全球最大的開發者社區和開源代碼平台,也是尋找開源信息的好地方。
聯合國統計數據
由聯合國統計司發起的提供聯合國數據的檢索門戶網站,包含17個機構提供的35個數據庫,總計達6千萬條記錄,覆蓋農業、犯罪、教育、就業、能源、環境、衛生、艾滋病、人類發展、工業、信息和通訊技術、國家審計、人口、難民、旅遊、貿易和千年發展計劃的數據。不光是數據庫,還有數據表格和詞彙表可供查閱。
聯合國難民署(UNHCR)
UNHCR的數據庫提供關於遷徙中途或歸國的難民、尋求庇護者、國內流離失所者和無國籍人士的統計數據和報告。 數據中可查閱到有關難民國家、原籍地、性別、年齡、地理位置和難民法律地位的詳細信息。
聯合國商品貿易數據庫(UN Comtrade Database)
可免費獲取詳細的全球貿易數據和相關分析表格。
聯合國人口基金(UN Populations Fund/UNFPA)
UNFPA關注人口生殖健康與權利、性別平等等人權問題。其統計數據分為幾大主題:青少年權利、福祉與生殖健康、女性割禮問題、世界人口與性別相關議題,另外還有助產士地圖。
聯合國兒童基金會(UNICEF)
UNICEF每年出版世界兒童狀況報告,公布世界各國和地區經濟、社會,尤其是兒童福利方面的統計數據,在網站上可按國家查詢。
世界衛生組織-全球衛生觀察站(WHO Global Health Observatory)
全球衛生觀察站是世衛組織關於世界各地衛生相關統計數據的網站。用戶能選定指標、衛生主題、國家和區域並獲取相關數據,還可以Excel格式下載按需要定製的表格。
聯合國教科文組織統計研究所(UNESCO Institute for Statistics)
UIS提供教育、科學、文化和傳播方面的國際可比數據,可根據國家搜索。
整理/Vickie Liang
編輯/Ivan Zhai
相關閱讀: