巧妇难为无米之炊,数据记者若无法找到想要的数据,从数据中挖掘故事也就无从谈起。特别在亚洲,相对而言,很多国家和地区的政府数据仍然不够透明;同时,也因数据集的结构、格式不一致、不规范等问题,导致数据可用程度较低。亚洲的记者们应如何查找本地区的数据呢?在上月的美国亚裔记者协会年度会议上,马来西亚数据记者、data-n.com网站创办人Kuang Keng分享了他的搜查思路,以及包含大量地区数据的数据库清单。
除了在网络搜索引擎上输入某个主题或关键词,如何更巧妙快速且精准地收集数据?Keng提供了以下思路:
收集数据的主要渠道
- 信源:由某组织内部人员泄漏的数据。
- 政府门户、政府报告:亚洲地区很多政府报告数据都以pdf格式发布。
- 高级搜索:掌握谷歌的高级搜索也是有效获取数据的一种方法。
- 提交信息公开申请:各地信息自由法规定差异。
- 国际性数据门户:有时,即使政府不向本国公众公开某些数据,他们还是需要遵循国际规定,向国际性组织提交相关数据。这些数据会更统一、标准化,因此也更可靠、更方便与其他国家数据作比较。
- 研究人员、学术期刊:学术研究机构的研究人员通常会掌握某些领域的大量数据。他们为研究收集了这些数据,最终与学术论著一起发表——通常阅读者寥寥。研究人员一般都很愿意和记者合作,因为媒体报道可以让他们原本或许少人问津的研究获得更多关注。
- 非营利组织:同上,非营利组织的调研数据也非常有用。
- 监管/法定机构:非政府机构如律师工会、医生协会等行业性管理组织,他们会收集会员的数据,如个人信息、针对会员的投诉等。
- 记者同行:有的同行可能曾经或正在跟进相似的故事或主题,向他们寻求帮助或一起合作吧。
- 爬取网页数据:有些政府数据存在于上千页的文件当中,写一个爬虫程序来抓取比手动梳理靠谱多了。
- 众包:在移动网络时代,所有网络用户都可以成为你的数据和信息来源。但这个办法的难点在于如何核实收集到的信息。
- 购买。
经济类数据库推荐
亚洲开发银行(Asian Development Bank)
亚洲开发银行网站上收录了亚太地区48个国家和区外19国的宏观经济数据和社会数据指标。
经济合作与发展组织(Organisation for Economic Co-operation and Development)
作为由35个市场经济国家组成的政府间国际经济组织,OECD提供相当全面的数据分享,包括农业、教育、就业、健康、贸易、税务、金融、能源、环境以及更多类别,同时可分国家和主题检索。
OpenDataSoft是一个帮助企业用户快速发布、共享和重复使用数据,并开发新应用的网络平台,现有10,000+个数据集向用户开放。
环境类数据
世界资源研究所(World Resources Institute)
世界资源研究所(WRI)是一个全球性研究机构,目标是以研究成果推动政府、企业和公民社会在改善自然与社会环境上的实际行动。WRI重点关注气候、能源、粮食、森林、水源和可持续城市六个议题,除了整理数据集,制作地图、各式图表和各类视觉资源以外,还会发布高质量的研究报告。所有和数据和研究成果都遵循传统的学术标准,以保证客观与标准,并完全开放。
如果在其数据库datasets.wri.org上找不到想要的数据,读者还可联系data@wri.org申请。
其中文网站上可以找到更多与中国相关、更及时的研究报告与数据。
公众环境研究中心(Institute of Public and Environmental Affairs, IPE)
用过“蔚蓝地图”App的读者应该都知道IPE。这家公益环境研究机构专门收集、整理和分析政府和企业公开的环境信息。网站上可以查询实时环境地图,了解全国范围内空气、水质、废气源、废水源等污染数据。
Global Forest Watch(GFW)是一个提供监测森林数据和工具的在线平台。GFW的交互观测地图,可让用户了解世界各地森林变化的实时信息,分析和调查变化趋势。
网站收录了中国和东南亚地区的大量数据,所有数据都可以表格形式下载,方便用于制作地图或GIF动图。
Global Land Cover Facility是一个有关土地覆盖科学的研究中心,重点利用遥感卫星数据和产品获取从地方到全球系统的土地覆盖变化。其中的数据不仅包括某地的植被覆盖情况,还涵盖地震、洪涝、干旱历史等地质信息。
Planet OS 提供获取高质量气候与环境数据的渠道,数据来源包括美国国家航空航天局(NASA)、美国国家海洋和大气管理局(NOAA)、欧洲哥白尼海洋环境监测中心(Copernicus)等。
全球各地统计局网站,维基百科都帮你列出来了。
Github
全球最大的开发者社区和开源代码平台,也是寻找开源信息的好地方。
联合国统计数据
由联合国统计司发起的提供联合国数据的检索门户网站,包含17个机构提供的35个数据库,总计达6千万条记录,覆盖农业、犯罪、教育、就业、能源、环境、卫生、艾滋病、人类发展、工业、信息和通讯技术、国家审计、人口、难民、旅游、贸易和千年发展计划的数据。不光是数据库,还有数据表格和词汇表可供查阅。
联合国难民署(UNHCR)
UNHCR的数据库提供关于迁徙中途或归国的难民、寻求庇护者、国内流离失所者和无国籍人士的统计数据和报告。 数据中可查阅到有关难民国家、原籍地、性别、年龄、地理位置和难民法律地位的详细信息。
联合国商品贸易数据库(UN Comtrade Database)
可免费获取详细的全球贸易数据和相关分析表格。
联合国人口基金(UN Populations Fund/UNFPA)
UNFPA关注人口生殖健康与权利、性别平等等人权问题。其统计数据分为几大主题:青少年权利、福祉与生殖健康、女性割礼问题、世界人口与性别相关议题,另外还有助产士地图。
联合国儿童基金会(UNICEF)
UNICEF每年出版世界儿童状况报告,公布世界各国和地区经济、社会,尤其是儿童福利方面的统计数据,在网站上可按国家查询。
世界卫生组织-全球卫生观察站(WHO Global Health Observatory)
全球卫生观察站是世卫组织关于世界各地卫生相关统计数据的网站。用户能选定指标、卫生主题、国家和区域并获取相关数据,还可以Excel格式下载按需要定制的表格。
联合国教科文组织统计研究所(UNESCO Institute for Statistics)
UIS提供教育、科学、文化和传播方面的国际可比数据,可根据国家搜索。
整理/Vickie Liang
编辑/Ivan Zhai
相关阅读: