用可視化地圖展示數據直觀好看,但工作量很大——除了建立數據採集標準、維護龐大的數據庫,還需要確定數據的衡量標準,考慮調整因素等。上述每一步都要避免跌入“陷阱”,因為一旦漏算現實條件,結果有誤,就會誤導讀者。
下面是深度君精選的幾個案例,從中可以學到如何嚴謹務實地解決數據標準問題。
噪音地圖
美國最熱鬧的地方在哪裡?看這幅噪音地圖(Mapping Sound on a National Scale)一目了然:東部比西部熱鬧許多,輻射狀的城市和交通網絡是噪聲源頭。
這幅可視化地圖由美國國家公園管理局(National Park Service,簡稱NPS)製作。他們統計了479個測量點的966組觀察數據,合計超過150萬小時聲軌。這些數據在官網上完全公開,可供下載。
數據庫這麼龐大,又有白天和夜晚、夏季和冬季之分,怎樣確定每個點的噪音強度以提高數據的可信性呢?
NPS首先預設,採用聲音數據的時間和環境應該符合夏季、白天、溫和天氣狀況這三個條件。
接着,他們採用了L50聲壓級標準下的噪聲數據,如果測量點50%以上時間裡的聲音都超過某噪聲值,此值即為當地噪聲值。
這個值不是最終數據,還要進行一次加權計算(A-weighting),將數值調整為人耳實際聽到的分貝值。
為了體現客觀和準確,NPS在地圖的介紹中標註了數據測量的誤差:半數測量地點城市環境下數據誤差小於1.7分貝,自然環境下誤差小於3.1分貝;而由於一些不可控因素,其他地點的誤差要更大一些。
通過科學家提供的數學模型,NPS還計算出了排除人類活動之後的聲音地圖:
由於與前圖量度不一,這幅圖採用了不同的配色,以免混淆。
戀愛地圖
早戀雖美好卻易逝——果真如此嗎?社交網站Facebook的數據科學小組分析了本網用戶信息,想知道學校對擇偶的影響。他們的作品“From Classmates to Soulmates”得出結論:已婚人群中,有15%是和中學校友結為伴侶;而已婚的大學畢業生中,約28%是和大學校友喜結連理。
上圖是與中學校友結婚的比率,紅點表示高比率,藍點則相反。城市地區往往藍點較多,鄉村等偏僻地區則紅點較多。
這個數據分析看似簡單,卻有許多問題:如果兩人雖是校友,卻並非在學校遇到,便不能證明是學校牽線搭橋;如果兩人不僅上同一個中學,也上了同一個大學,哪一段相處促成了戀愛,也無法統計。另外,如何選擇樣本、避免系統誤差,也是個問題。
針對以上問題,Facebook的分析員採取了如下預設條件:
1) 如果兩人上同一所學校的時間差在4年以內,就算作學校促成了這段姻緣;學校的“做媒成功率”是s/n,s是Facebook上某校畢業生與其配偶同校的人數,n是該校已婚畢業生的配偶也提供了學校信息的人數;
2) 如果兩人同上過不止一所學校,只計算最早同校的那一所;
3) 只計算年齡在24歲以上、已婚並提供完整信息的用戶數據;
4) 只選擇(在Facebook上登記的)有1000個以上已婚校友的學校;
5) 女性用戶和男性用戶數據分開統計,因此兩邊數據是不對等的,分析時也分開觀察。
數據分析的量度也很重要。Facebook分析員選擇了如下三個因素作為變量,探究學校的“做媒成功率”與這些因素的關係:
1) 學校大小;
2) 學校的宗教傾向:以-1代表完全非宗教,1代表完全宗教化;
3) 學校的政治傾向:以-2代表非常自由,2代表非常保守。
在這些前提下,一些有趣的發現包括:
1) “做媒成功率”較高的學校大部分是宗教化的學校;
2) 女性嫁給同校男生比率最高的學校是印第安納州的羅斯-豪曼理工學院(Rose-Hulman Institute of Technology),比例達70.4%;
3) 男性娶同校女生比率最高的學校是愛荷華州的一所高中,虔誠浸會聖經學院和神學院(Faith Baptist Bible College and Theological Seminary),比例達66.8%;
4) 男生比例高的學校,“做媒成功率”高;女生比例高的學校則相反。
這個案例中,數據不是通過針對性問卷獲取,因此總有不足,Facebook調查小組也列舉出一些缺陷,比如無法確定兩人是在學校里才開始戀愛(也可能是之前或之後),所以上述統計是十分初步的;又比如兩人雖然上同一個學校,卻以不同拼寫標示學校名稱,統計中就會顯示學校不吻合,有漏記風險;再者,數據只包括在Facebook上登記了完整信息的已婚用戶,本身就是一個有缺漏的樣本。
上圖是每個大學的情況,圓圈代表大學,紅色表示同校結婚者比例高,藍色表示比例低;細線則連接了有較高比率“婚姻關係”的兩個大學。(順便推薦一個免費開源軟件Gephi,這幅圖就是用它製作的。)
殭屍地圖
“殭屍”毀滅世界?這種科幻電影里才出現的場景似乎是無稽之談,但康奈爾大學幾個物理學和生物科技專業的學生還真把它當成了嚴肅的研究課題呢。他們不僅寫論文論證了殭屍們只需四個月就能佔領全美,而且還用GitHub做了一個互動地圖網站”Zombie-town USA“,讓你體驗操縱殭屍毀滅美國的“快感”。看看下面的介紹你就明白啦:
雖看似荒謬,但這研究其實是建立在傳染病傳播的科學模型之上。不過根據學生們的解釋,“殭屍感染”是種特殊的傳染病,被感染的人並不像一般疾病那樣能夠痊癒,而是會變成殭屍。而殭屍也只能在被取出腦子之後才能被殺死。因此在展開計算之前,研究者們預設了一些前提:
- 首先,個體具有兩種屬性,一是地理位置,二是所處狀態:人,殭屍,死殭屍;
- 其次,個體間的互動分為三種:殭屍咬人,人殺殭屍,殭屍行走(注意這裡並沒有考慮人的地理位置改變,只考慮了殭屍的,說明預設中人是不選擇逃走的,這也符合傳染病的設定);
- 最後,將這個模型應用於美國的3.08億人口。
互動地圖上還設置了三個可供使用者修改的參數:“殺-咬指數”代表人類和殭屍相遇時,人類能夠取勝的比例,區間在0到3之間(數值越高代表人類獲勝比例越大);“行走時間”代表殭屍行走一公里所需要的時長,在1到100之間;“步數”表示你希望殭屍行走的步數,在0-2000之間。
小編嘗試了一下不同參數的情況,發現阻止人類滅亡的關鍵點還是在我們自身的戰鬥力:“殺-咬指數”一旦低於1,殭屍的傳播就無法控制了!神奇吧?
地圖的功能千變萬化,掌握了以上搜集數據、制定標準的方法,不妨試着把你的奇思妙想做成可視化作品吧!
編輯/Ivan Zhai,周煒樂