10月初,金秋好时节,第三届亚洲调查记者大会在韩国首尔召开。
尽管“调查报道”仍是大会主旨,但“数据”的获取、使用和展现,已成为另一个重要议题。演讲期间,记者们分享了各种各样的常用工具。下面,我们以三个话题为例,整理了一份详细的工具清单:
一、贸易追踪:如何锁定走私货?
全球贸易,使商品流通更快捷也更复杂化。要了解全球的宏观贸易情况,UN Comtrade Database (联合国商品贸易统计数据库),可提供目前最权威的国际商品贸易数据。数据库收集了超过6000种商品、约17亿个数据记录,数据最早可回溯至1962年。各国家地区上报的数据均被转换成联合国统计署的统一标准格式。
在它的Knowledge base菜单中,可以查到各种商品所对应的编码(广泛通行的HS-Code,由国际海关理事会制定,每样商品对应唯一一个code,例如“大米”对应“1006”)。该网站支持在线查询,或下载有所有编码的Excel。
而如果要追踪具体的运输行为,则须知道一些能够识别到这趟运输、相关货船、甚至某个集装箱的信息:
1.提单号。英文为bill of lading,简称B/L,它是一种货物所有权的凭证,也是托运人与承运人之间所订的运输契约的证明。通过提单号,可以直接辨识出承运公司。
此外,提单上一般会写清此次运输的托运人、收货人、货物描述、毛重、净重、装运港、卸货港等等。一旦获得提单号,可以在网上进行查询(如 https://www.shipmentlink.com/、箱讯等),获得提单上的丰富信息。
2.集装箱号。指装载货物进出境的集装箱两侧标识的全球唯一的编号。其组成规则是:箱主代号(3位字母)+设备识别号“u”+顺序号(6位数字)+校验码(1位数字)。例如:EASU9809490。
换言之,知道集装箱号就知道箱主是谁。也可以据此到运输公司/船舶公司网站上进一步查询。
3.船舶编码。每艘船都有唯一的编码(IMO number),据此搜索可得到船舶信息(名字、吨位、种类、旗帜、建造时间)。Equasis (欧洲优质船运信息系统),是目前最全的船舶资料库。
例如,搜索IMO number为9238765的船只,可以得到这艘船的基本信息,例如名字、吨位、类型、建造时间、旗帜等。
在Equasis的Statistics菜单中,还可以查到全世界各年度的船舶统计报告。
另外,Tokyp MOU/东京备忘录(http://www.tokyo-mou.org/)有全面的PSC数据库(Port State Control,即港口国监控,对外国船舶及船员技术状况及能力进行检查),方便查询船舶的滞留情况、老旧船只信息等。
还是搜索IMO number为9238765的船只,可以看到各项基本信息,以及在港口国检查的记录,例如今年5月在上海有滞留,9月又被评定为高风险船只。
除了靠自己顺藤摸瓜以外,记者们也可以寻求专业公司的帮助。例如,Panjiva是一家能够提供世界各国详细的货运数据、公司数据、方位数据的商业公司。
此外,还有一些网站支持实时航运信息、港口信息的查询。如shiptracking.eu,船讯网(http://www.shipfinder.com/)等。
二、信息挖掘:如何合法“查户口”?
spokeo(https://www.spokeo.com/)于2006年成立,声称自己从公开社交信息搜集记录或个人信息。在该网站上,只需搜索姓名,地址,电子邮件,电话或用户名之一,即可找到搜索对象的详细信息,甚至包括对象曾在哪些地方住,以及谁和他们一起住,或者更多意想不到的信息。
比如查找John Anderson,可以看到这些名字的分布、年龄、亲戚以及更多的联系方式,事实上还有相关社交信息,并能通过图片确定这个人是否是你寻找的人。
同类型的网站还有:
……
比如想查找川普的信息,通过peekyou得到如下:
同时,它可以跳转到其他同类型网站,为你提供接近的信息。
OCCRP data (https://data.occrp.org/)是一个关于犯罪和腐败的文件数据库,拥有超过42亿公共记录和链接,背靠OCCRP平台,该平台由40个非营利性调查中心,数十名记者和全球几个主要区域新闻机构组成,他们的网络遍布欧洲、非洲、亚洲和拉丁美洲,主要揭露全球有组织犯罪和腐败。
比如搜索俄罗斯总统普京的信息,可得到如下结果,并提供如信源、材料类型、国家、语言等多种检索方式。
至今为止,OCCRP的报道曾推进政府冻结或扣押问题资产57.35亿美元,84次刑事调查和政府调查,促使发布147个逮捕令,并影响过20次重大解雇,包括总统,总理和主要跨国公司的首席执行官,可谓硕果累累。
此外假如想了解社交网站的信息,还有如下查找方式:
stalkscan.com查询Facebook数据
tweetbeaver推特数据查询
followerwonk推特关系查询
Geofeedia基于地理位置的社交媒体信息搜寻
pipl.com通过搜索姓名/邮件/电话查找社交媒体信息
archive.org / aichive.is查询被删除的社交媒体记录
有时候,除了人以外,网站的身份也需要核实。
domaintools(https://www.domaintools.com/) 是一个在线域名信息查询工具,包含:Whois 查询 (Whois Lookup)、域名查询 (Domain Search)、IP 反向查询 (Reverse IP)、DNS 工具 (DNS Tools)、域名历史 (Domain History)、域名服务器监测 (Name Server Spy)等。
以whois为例查询一家域名为Loveukbags.com的购物网站,尽管看起来真实可靠,但用 https://whois.domaintools.com/查询后发现众多含有关键字“bags”的购物网站,例如HandbagsSale.com、ShoesBags.com、PursesHandbags.com等,同时发现这家购物网站的服务邮箱挂靠在多达2988个域名上,注册商是珠海某公司,但IP地址在美国亚特兰大,证明是一家虚假购物网站。
dnslytics(https://dnslytics.com/)用于 IP信息、域名信息、ipv4、ipv6等查询,还可以单独点开域名,看看它有没有包含在DMOZ这样的公共网页目录里面,有助于发现钓鱼网站。
此外还有:
Whatismyip(https://www.whatismyip.com/)用于检索目标IP所处的国家、城市、城区、邮政编码、网络提供商、时区和经纬度等信息,定位相当准确。
icann whois 则可以用于查询网站持有者信息(https://whois.icann.org/en)。
三、卫星图:如何获得上帝视角?
近两年,卫星图颇受追捧。人们用它来观测位置、评估整体环境,通过拖动时间轴,往往还能看到沧海桑田的变化。就工具而言,Google Earth最为常用,但是存在清晰度不高、年份缺失、维度单一等问题。有哪些工具可以作为补充呢?
首先是NASA(美国国家航空航天局)。它提供丰富的图片库,以及可交互的卫星图网站,如https://search.earthdata.nasa.gov/、https://worldview.earthdata.nasa.gov/等等,可供慢慢探索。
此外,一些观测卫星的主页上也会公布数据集。例如,NASA的Terra卫星,携带了5种观测工具,从不同角度观测地球,获得的图片可以适用于不同的需求:
在它们各自的网站上,可以不同程度的下载到卫星图像,甚至原始数据。例如,这是ASTER分别拍下的,1984年和2015年的苏州。
如果专门寻求气象方面的卫星图像,NOAA(美国国家海洋和大气管理局)有友好的查询功能。通过交互页面,我们可以查看全球实时的气象状况,并下载图片。
另外,NOAA还提供专门追踪大西洋飓风的在线工具(https://www.nesdis.noaa.gov/content/hurricane-imagery),既能观测实时的情况,也包含以往飓风的动态卫星图像。
如果这些开放数据源都无法满足需求,可能需要求助于商业公司。著名的如DigitalGlobe、Planet等。尽管多数服务需要付费,但他们有时也会放出部分受关注的卫星图像,或者给予一定的试用期。
例如,DigitalGlobe推出的Open Data Program,在遇到大型灾害时,一般都会放出卫星图。例如飓风、海啸等。
Planet则提供14天试用其在线工具的机会,并可下载特定尺寸的卫星图像。
此外,还有一些社区类网站,致力于识别卫星图。
Tomnod是一个志愿者社区,致力于用卫星图像探索地球、解决现实问题。例如,目前正在进行的项目是寻找韦德尔氏海豹。作为南极洲的标志之一,韦德尔氏海豹很可能受气候变化和商业渔业的影响。通过在卫星图上寻找海豹,有助于人们了解其种群规模、以及现今的居住地。
此外,一些高校、研究所的网站上,也会公开一些卫星图像或研究成果。
为了挖数据,真的是很拼了…赶快把你的工具箱丰富起来吧!
相关阅读:
本文原载于微信公众号“一头倭瓜精”,全球深度报道网经授权转载。