優步服務歧視有色人種?專家巧用數據揭秘

Print More

File illustration picture showing the logo of car-sharing service app Uber on a smartphone next to the picture of an official German taxi sign in Frankfurt, September 15, 2014. A Frankfurt court earlier this month instituted a temporary injunction against Uber from offering car-sharing services across Germany. San Francisco-based Uber, which allows users to summon taxi-like services on their smartphones, offers two main services, Uber, its classic low-cost, limousine pick-up service, and Uberpop, a newer ride-sharing service, which connects private drivers to passengers - an established practice in Germany that nonetheless operates in a legal grey area of rules governing commercial transportation. REUTERS/Kai Pfaffenbach/Files (GERMANY - Tags: BUSINESS EMPLOYMENT CRIME LAW TRANSPORT)

省錢、便捷的服務是優步主打的特色,但優步在美國某些地區司機數量不足,乘客等車時間長,始作俑者究竟是誰?美國馬里蘭大學菲利普•美林新聞學院計算新聞實驗室的研究科學家Jennifer Stark在Nick Diakopoulos教授的幫助下巧用公開數據,揭開了有色人種的居民越多,等車時間越長的規律。他們是如何選取、調整、計算數據,從而得出結論的?研究有何意義和缺憾?請看Stark的研究分享吧。


此次探究的是華盛頓特區的優步漲價現象,這一想法源於馬里蘭大學計算新聞實驗室主管Nick Diakopoulos為《華盛頓郵報》Wonkblog撰寫的文章。文章指出,“峰時定價”(指用戶叫車數量增加時,優步司機相應加價)促使優步司機聚在打車高峰區招攬顧客,但司機總數並未如Uber所說有增加。他研究發現:如果司機都聚到漲價區,該區居民等待時長變短,獲得的服務更優質。相對的,非漲價區的車變少,居民等車時間更長。問題是:價格上漲和服務水平提升總是根據社區分異嗎?區分這些社區的人口特徵是什麼?於是我們開始了深入探究。研究證實:白人居民越多的地區,等車時間越短,優步提供的服務越好。

屏幕快照 2016-05-30 23.05.23

該圖顯示的是預計等候時間與價格變動的關係

Nick-Diakopoulos-talking-at-the-JMSC

2011年,Nick Diakopoulos在香港大學新聞及傳媒研究中心演講

調整地理數據

我用Diakopoulos教授所寫的優步API代碼獲取華盛頓特區任意指定地點的ETA(即用戶叫車的預計到達時間)。時間區間是四周,從2016年2月3日至3月2日。隔三分鐘取一次數據,因為優步每次高峰時段都持續超過三分鐘。但地點需要人工選擇,提交經緯度信息給API。應該如何選取特區的地點樣本呢?

地理區塊數據包含區域中心點的經緯度,但是區塊面積一般為0.08至2.5平方英里。因此,我先手動選了起點和終點的經緯度,再用Python編程自動填補剩下區域,確保選擇的密度能覆蓋最小區塊,由此獲得一系列坐標。代碼還排除了任何特區外的地理點。數據收集完畢後,我算出每個區塊的經緯度平均值作為代表值。

細查網格,我發現很多點都位於公園、河流、墓地和其他沒有公路的地方,這些地方不太可能有人打車,我得另選合理的坐標。Python這時又幫了大忙。谷歌一下“你想用Python 3做到的事情”,我就get了完成項目的秘訣。

我的方法是:安裝Python數據包“address”,能照語法解析地點裡的大樓號、街道代碼(街street、道avenue、路road)、街道名稱等等。我規定有效地址必須包含門牌數字和街道代碼,排除了眾多無效地址。新問題來了:這些數據能代表所有區塊嗎?是不是有些區塊一個坐標也沒有?

因此,我寫了另一個程序,對照地理數據核查坐標,用中心點坐標代表那些還沒有代表點的區塊。這些區塊大多面積小、聚集於華盛頓特區的中心地帶。核查完畢後,我手動調整了坐標。最終,我選定276個地點。

屏幕快照 2016-05-30 23.35.56

圖為繪圖網站HamsterMap的地圖,作者從標註的地點提取Uber數據(價格上漲的倍數和預計等候的次數)。在原地圖上可見淺淺的網格狀結構,這些看似排列不均勻的坐標就是經緯度坐標的平均值,代表了那些過小、不易採樣或原地址無效的區域。

 

選用人口數據

美國普查局(United States Census Bureau)提供了每年抽樣人口調查《美國社區調查》,我們仔細查閱了2014年的調查數據,輔以統計數據可視化網站Census Reporter和自己的分析,看看哪些指標可能與峰時定價和人口特徵的相互影響相關。

我們決定關注三個主要指標:貧困率、種族(或民族)和家庭中等收入數,並直接從Census Reporter下載這部分數據。你可能對收入(或貧困率)和種族(或民族)中某一個的影響感興趣,但我們必須同時考慮兩者,因為它們存在共變關係。需要說明一點,由於Census Reporter的可視化中包含中等家庭收入這一指標,卻並未提供原始數據或可以用來計算的其他數據,我轉而從另一數據分析網站American Fact Finder獲取這一數據。

屏幕快照 2016-05-30 17.49.39

圖中數據證實有色人種居民越多,等待時間越長

基於選用的分析模型,研究還需二分種族(或民族)的指標。我們為確保方法正確,諮詢了人口統計學家,最後分成了白種人和有色人種兩類。白種人同時包括拉美裔白人,有色人種包括黑人(或稱非洲裔美國人)、亞洲人、拉美裔黑人和具有拉美血統的亞裔。

調整其他數據選取

因為優步不同車型的漲價模式各不相同,我們此次僅研究車型uberX。這樣做還有一個實際的考慮,控制報告的體量。

我們後期才添加了區塊面積數據,校正人口密度。這是由於一通電話:我和Diakopoulos教授希望優步的代表對研究提出意見,優步的工程師問我們是否計算了人口密度。由於控制人口密度可能會導致結果不顯著,當時我們並未計算。為了不給優步質疑數據的餘地,教授在電話上拖着他們,我同時快速用總人口和區塊面積數據計算了人口密度,重新運算模型,也證實了控制人口密度不會影響研究結果,這才大功告成。

屏幕快照 2016-05-30 23.41.53

圖中顯示:華盛頓城區中心區的等待時間短於周圍地區的等待時間

 

思考開放源代碼的意義

數據研究完成了,發布、分享也是需要謹慎思考的重要步驟。我們的研究項目關注數據新聞的開源和透明度問題。實際操作上,這意味着什麼?我是應該只公布用於分析的代碼呢,還是也提供用於數據收集的代碼?我該不該分享數據本身?開放源代碼的目的是什麼?是為了顯示項目透明度,為了證實數據準確性,還是為了幫助其他記者挖掘獨特的故事?

open code

這裡有幾個概念需釐清。複製調查需要研究者向他人提供代碼(或軟件)和數據,這樣他們才能用同樣的數據依照原方法再運行一遍。仿照調查則需要以獨立的數據收集、代碼撰寫和分析得出同樣結果。如果用不同的例子、指標和軟件還能得出同樣的結果,結論真實的可能性就更大。在本次研究——也許在各類新聞的數據故事中,仿照調查受特定社會經濟、人口統計、政府關係等因素影響,可能不適用。例如,我們的研究發現,若一個地區有更多有色人種居民,等候優步UberX的時間就更長。但是,如果有人收集華威、羅德島(90%的居民是白人,僅有5%的貧困人口,缺乏公共交通)的數據,採用相似的分析模式,結論則會截然不同,但並不表示我們分析華盛頓特區的結果就不實。

因此,我將壓縮的CSV數據表和原API數據上傳到Google Drive上,方便任何人獲取。他們可以利用代碼確定特區內部的地點(如果你稍加改進,就能把模型用到如何城市中)、檢測GitHub上可用的數據分析。

下一步計劃

本次研究的一大缺憾是沒能排除供需關係的影響。優步的API僅提供了被叫車輛的“預計等候時長”和漲價倍數。一旦一定數量的乘客在同一地點打開app查看叫車情況,價格就有可能上漲。因此,在缺乏優步服務的地區預計等候時間長,可能是由需求不足造成的。需求不足,峰時漲價的次數就少,司機也就沒動力來此地招攬生意了。

另一個可能是,等候時間越長,叫車的需求也會因此減少。如果乘客打開app,看到需要等這麼久,後面他們也就不大會用app打車了。我們倒是可以查閱特區出租車數據來估算需求,但是統計數據通常只包含和通勤相關的交通方式,而且將出租車的數據和摩托車、“其他交通方式”混為一談。因此,我根據《信息自由法案》向特區出租車委員會要求獲取出租車數據,這一招很有效。

另一缺憾是,研究未能提供證據解釋為何這些缺乏優步服務的地區會缺乏需求或供應。在探究算法責任的調查中,我們很難總結背後的原因。每年的犯罪率可能是一個影響因素,因為司機會根據不同地區的安全程度而決定是否上線提供服務。銀行賬戶開通情況也可能有關,優步、Lyft和一些出租車服務會用到電子或信用卡支付,銀行賬戶是行業的進入門檻。2013年的一項研究表明,將近15%的特區居民沒有銀行賬戶。

優步公司告訴我們“他們正在努力解決長期以來不平衡的交通問題,為所有人提供更簡便、更便宜的服務,方便他們穿梭城市。”但如果優步不能覆蓋15%的人口,承諾的服務會打多少折扣呢?

我們的數據和代碼在網上均可獲取,隨着分析深入還會增補和改進。其他調查者可能能從其中挖掘更多的故事,用代碼創製自己的模型。若有任何建議,請聯繫starkja@umd.edu 或推特賬號@_JAStark


JenniferStark-336x336Jennifer A. Stark博士是計算新聞記者,研究算法的社會影響和透明度。她目前是哥大數字新聞中心學者,馬里蘭大學菲利普•美林新聞學院計算新聞實驗室的研究科學家。

 

本文Investigating Uber Surge Pricing: A Data Journalism Case Study原載於數據新聞博客Source,全球深度報道網經授權轉載並編譯。

編譯/周煒樂
編輯/Ivan Zhai, 王一葦

Print Friendly, PDF & Email

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標註