现今调查新闻动辄涉及大量文件作为证据,尤其是电子文档,部分随报道发表而公开,以增强新闻可信度。但媒体务必要谨慎行事,因为文档一旦处理不当,“新闻线人”的身份就会暴露,甚至人身安全不保。
提供文档解决方案的民间组织DocumentCloud根据多年经验,总结出使用电子文档过程中的注意事项,指导大家识别出文档中的隐藏信息,其中不少都可能在无形中泄露你的个人隐私。
在隐私极为脆弱的互联网时代,不单是记者,其实我们每一个人都有必要学习相关知识,减少不必要的损失。
文档中的“元数据”是否已经清除?
现在的文档处理软件功能丰富,比如用户可以保留文件修改记录,谁在何时进行了何种修改一览无遗,而图片文档往往记录了拍摄的地理位置。这些包含了时间、地点、人物和操作信息的数据就被称为“元数据”(metadata)。
元数据无处不在,除了上述例子,mp3格式的语音文件中通常会包含一种称为ID3的数据标签,本来是用于记录音乐的曲名、演唱者、专辑、音轨数等信息,但记者录音文件中的ID3就有可能成为泄漏报料者身份的线索。
因此,在必要的时候我们应尽量删除文档中的元数据。每种格式的元数据有不同的检查和删除方式,只要在互联网搜索引擎中键入格式名称和“元数据”(两者之间用空格分开,“元数据”也可用“metadata”代替),就不难找到适当的处理方法,关键要时刻保持风险意识,尤其是在使用以下文档时:
- Office Word 文档:微软官方网站对于如何发现和删除隐藏的数据和个人信息有详细介绍,请点击此处查看。
- 图像:EXIF是专门记录数码照片拍摄信息的格式,全名为“可交换图像文件格式”(exchangeable image file format)。网上有许多免费工具供你查看数码照片的EXIF信息,但如果你觉得相关照片太敏感而不适合于传到网上,浏览器Firefox和Chrome提供的免费插件也可以实现同样功能。.
- PDF:pdf文档所属的Adobe公司也提供了关于元数据的详细说明,读者可以自行查看并按需要作设置。需要指出的是,一般情况下Word或Excel文档中的元数据可以在转换成pdf的过程中删除,但对于原本就是pdf格式的文档,元数据则较难处理。
是否已经逐一检查文档中的识别符?
识别符(identifier)是一种用于追溯作品来源的方式。中国古代工匠为皇室烧制砖瓦时都会留下一个符号,便于在出现质量问题后追责,而这个符号就是一种最古老的识别符。
在印刷文档(包括打印)中,识别符也很常见,主要的形式包括:
- 打印点阵
- 水印
- 特殊种类的字形
- 异常的空格
这些都是在印刷年代帮助机要部门追溯文档流向的技术,其中人们较少注意到隐藏的“打印点阵”,但最近在美国引起广泛关注。
事源今年6月,FBI拘捕美国国家安全局承包商雇员Reality Leigh Winner,她涉嫌泄漏有关俄罗斯干预美国大选的机密文件。专家发现泄漏的文件布满了细小的黄点,肉眼难以发现,但经蓝光调整后便清晰可见,分析指这些点记录了打印时间和打印机产品编号。人们怀疑当局因此而追查到泄漏文件的人,但FBI拒绝确认调查细节。
其实,多年前就有民间组织发现了这些小黄点的存在,并通过网格分析法成功破解隐藏的信息。
要抹去这些纸质文件中的隐藏信息,一种方法是不要复印或扫描,而是转录纸质文件中的文字后新建一个电子文档。但总体来说没有统一的方法,要具体情况具体分析。
是否对文件做了适当转换或重建?
如上所述,尽管有一些工具可以帮你发现并删除部分元数据,但要消除潜在的隐藏信息则可能需要重建一份文档。
方法不一而足,网上也有一些工具帮你实现转换的功能,但必须充分了解这些工具的原理,仔细评估该方式是否足够。
DocumentCloud就介绍了一个比较常用的重建pdf文档方法。他们会将pdf的每一页转换成截图,然后用文字识别软件生成一份全新文档。这样就避免了复制粘贴过程中意外地将一些隐藏信息带到新文档的问题,不给追踪文档来源的人留下可趁之机。
识别和去除电子文档中隐藏信息的技术种类繁多,而且发展迅速,本文难以逐一列举。我们希望读者看完后,处理电子文档时能更加谨慎。也希望今后记者在向公众揭发丑闻的时候,能够因此减少对自己和新闻线人的伤害。
编译/周穗斌
编辑/Ivan Zhai,梁思然
相关阅读:
亚洲深度报道大会记者手记:开放心态,拥抱技术,调查记者无惧数字时代的挑战
Ted Han是DocumentCloud的总监。他大学主修计算机语言,在科技创业领域有超过10年经验,曾经参与DataMapper和Merb等一系列大数据项目。
Quinn Norton是一名科技记者,她从1995年就开始研究黑客问题。她的文章主要发表在《连线》杂志和《大西洋月刊》,题材覆盖科学、版权法、机器人、医疗等,但最让她痴迷的还是黑客技术。