谈到数据新闻,总也绕不开技术。记者不懂点行话,还怎么跟团队技术小伙伴沟通?在NICAR会议上,数据极客同时也为NBC4调查记者的Tisha 一起和 ProPublica新闻应用开发师Sisi,向大家介绍了一些熟悉又陌生的技术,分享了不少软件、互联网平台等。
深度君经授权转载镝次元数据传媒实验室(ID: dyclub-org)的NICAR分享,看看清单里有哪些术语还不熟悉?文中还附有相应教程,或者参考深度君的分享《独家 | 全球调查+数据新闻指南超全清单》哦。
基本术语
CMS
Content management system(内容管理系统),可以通过CMS实现内容管理及发布,CMS通常基于模块式的开发,每个新闻编辑室都会有内容管理系统,最为典型的CMS就是博客系统”wordpress“。
Modeling
Statistical or mathematical modeling(数据建模),建模通常是由科学家或者研究者完成,能帮助我们理解系统如何运作。
AWS
Amazon web services(亚马逊网路服务系统),你可以向其付费来运营你的网站。
OpSec
Operational Security(运营安全),作为记者,如何保护自己的新闻源?在斯诺登事件之后,这个问题变得更为重要。
编程相关
编程实际上就是与电脑的沟通对话,以下这些就是我们跟电脑沟通时所用到的语言。
Ruby和Python
这是两款常用的编程语言,Ruby和Python在手,天下我有。比如,在做非法枪支买卖的专题时,你可以用Ruby扒取网站上的枪支广告。
可参考深度君的分享《新闻人网络数据采集入门》
Node.js
Node.js是可用于服务器端的javascript运行环境,通常适用于高并发的应用场景。
Django, Rails
这两个叫做“框架结构”,运用Django和Rails构建框架,这样你就可以在互联网里创建出成百上千的网页了。Rails基于Ruby,Django则基于Python。
API
Application Programming Interface(应用编程接口) ,计算机读取网页的“捷径”。不少公司(比如Twitter)都开放了API,别的程序员就可以运用这些公司的数据来创造一些有趣的项目。
Grunt
一个提供预览和测试html/css/js的软件,确保代码的可以正常运行。(笔者认为这个程序很有利于写出干净有序的代码,大家不妨一试。)
网站/服务/产品
CodePen, JSFiddle
在线编辑html/ css/ js语句和分享的网站。
StackOverflow
你可以在这个网站上提问,尤其是关于编程的问题。
Tabula
从pdf中提取数据的免费软件。
更多数据处理软件,可参考深度君的分享《干货 | 数据收集和处理工具一览》哦
数据类型
电脑储存数据会有多种格式,以下三种是可以互相转换的。
CSV
逗号分隔值文件格式,其文件以纯文本形式存储表格数据(数字和文本)。
XML
用这些<tags><that><look><like><this>来分隔数据,是一种用于标记电子文件使其具有结构性的标记语言。
JSON
一种轻量级的数据交换格式,JSON 语法是 JavaScript 对象表示语法的子集。
地图绘制
ESRI
美国环境系统研究所公司,开发了ArcGIS工具。
可查看深度君的分享:《地图可视化制作和数据平台精选》
QGIS
开源免费地图软件。免费,但是没有ArcGIS好用。
Tilemill
制作地图的软件。
Map box
Tilemill的所属公司。
Fusion Tables
一项Google服务,你可以上传数据,并运用Google maps来制作地图。
CartoDB
一个制作并在线发布地图的网站。页面精良,有付费和免费版本。
可参考深度君的分享:《地图可视化神器CartoDB简明使用指南》
ShapeFile
运用点、线、多边形来描述形状的描述的文件。我们可以运用这些文件来制作地图或者地图上的图形。包含有郡县的边缘或者是湖泊的界线。
数据分析
SQL
结构化查询语言,用于存取数据以及查询、更新和管理关系数据库系统。
MySQL
一个十分热门的数据库管理系统。
SQLite
生产嵌入式SQL数据库的软件,可以不通过服务器来建立数据库。
PostgreSQL
更为高阶的SQL数据库管理系统。.
pgAdmin
PostgreSQL的管理界面。
Regular Expressions
正则表达式,通常被用来检索、替换那些符合某个模式的文本。
OpenRefine
一个免费且强大清理数据的软件。
可参考深度君的分享:《数据清洗神器Open Refine简明入门》
Document Cloud
由记者创建的,一个可以上传、搜索pdf并可以对pdf进行注释的网站。
Google Analytics
Google创建的网页流量分析软件。
统计
Regression
回归,统计术语。测试变量间相互依赖的定量关系的一种统计分析方法。
SPSS
付费的统计分析软件。
R
一年前江湖上还没有R的传说,现在人们都在用了。这是一个基于统计计算和绘图的的编程语言。
R Studio
一款好用的R语言编辑器。
dplyr
最近两个月刚发布,更快更简易地操作、探索数据的R语言软件包。
Sensor Journalism传感器
Sensor Journalism
专业记者和自媒体运营者通过传感器收集和利用海量信息与数据来“讲故事”的新闻生产模式。
Arduino, Raspberry Pi
两种类似的硬件,运用其附带的软件进行编程,改造成传感器。
镝次元数据传媒实验室(ID: dyclub-org),以武汉大学为研究基地,对接丰富的数据资源和媒体资源,以产学研结合方式,积极参与和推动数据新闻的人才培养、技术创新、行业生长和理论发展。
原文作者/吴嘉川 刘佳昕
原文翻译/曾明 赵磊
原文编辑/曾明
原文运营/刘雅露
深度网编辑/周炜乐