數(shù)據(jù)匿名化對(duì)隱私可以起保護(hù)作用嗎
過去十年以來,我們收集與存儲(chǔ)個(gè)人數(shù)據(jù)的能力呈現(xiàn)出爆炸式的增長。由于全球三分之二的人口能夠訪問互聯(lián)網(wǎng),電子病歷成為常態(tài),物聯(lián)網(wǎng)亦快速興起,這種趨勢(shì)很可能迎來愈演愈烈之勢(shì)。通過填寫在線調(diào)查或者統(tǒng)計(jì)瀏覽習(xí)慣,從金融或者醫(yī)療服務(wù)當(dāng)中大規(guī)模收集到的信息擁有令人意外的巨大潛力。其推動(dòng)了醫(yī)學(xué)、社會(huì)科學(xué)以及人工智能的科學(xué)進(jìn)步,并有望徹底改變企業(yè)與政府的運(yùn)作方式。
然而,大規(guī)模收集并使用詳盡的個(gè)人級(jí)數(shù)據(jù)也帶來了法律層面的隱私難題。最近,DeepMind共享英國國家健康服務(wù)局(NHS)醫(yī)療數(shù)據(jù)以及劍橋分析公司大量購買Facebook數(shù)據(jù)集等事件,都讓人們愈發(fā)關(guān)注個(gè)人數(shù)據(jù)的保密性、隱私性與道德使用等問題。
為此,數(shù)據(jù)匿名化也開始受到了廣泛關(guān)注。所謂匿名化,就是在共享數(shù)據(jù)集內(nèi)容之前首先其其中的身份信息進(jìn)行剔除,這也是各類研究與商業(yè)機(jī)構(gòu)所采取的主要個(gè)人隱私保護(hù)范式。全球范圍內(nèi)的各類數(shù)據(jù)法普遍認(rèn)為匿名數(shù)據(jù)不再屬于個(gè)人數(shù)據(jù),允許各方自由使用、共享以及銷售。例如,學(xué)術(shù)期刊正越來越多地要求作者向研究界提供匿名數(shù)據(jù)。雖然匿名數(shù)據(jù)的標(biāo)準(zhǔn)各不相同,但現(xiàn)代數(shù)據(jù)保護(hù)法(例如歐盟〈通用數(shù)據(jù)保護(hù)條例〉(GDPR)以及〈加州消費(fèi)者隱私法案〉(CCPA)等)都認(rèn)為數(shù)據(jù)集中的每個(gè)人都應(yīng)通過匿名化方式得到保護(hù)。GDPR提出的要求進(jìn)一步明確了這種新的匿名化標(biāo)準(zhǔn):數(shù)據(jù)不應(yīng)包含可能導(dǎo)致真實(shí)身份復(fù)原的明顯身份識(shí)別因素,這也將匿名化問題正式歸入法律范疇。
而為了保護(hù)這些有意或者無意間將自己的個(gè)人信息交予數(shù)據(jù)庫的用戶,大多數(shù)機(jī)構(gòu)也會(huì)消除數(shù)據(jù)中的身份信息。在具體流程中,他們會(huì)刪除明顯的個(gè)人身份標(biāo)識(shí),包括姓名與社保號(hào)碼;有時(shí)也會(huì)采取其他預(yù)防性措施,例如向集合中引入隨機(jī)“噪聲”數(shù)據(jù)或者利用常規(guī)標(biāo)識(shí)替換特定細(xì)節(jié)(例如將1990年3月7日出生,調(diào)整為1990年1月至4月間出生)。處理完成之后,代理機(jī)構(gòu)即可發(fā)布或者出售這部分信息。
》》》 數(shù)據(jù)匿名化處理被證明無效然而,事實(shí)證明,經(jīng)過匿名化處理的數(shù)據(jù)集無法成功解決個(gè)人身份被復(fù)原問題。
2016年,記者從300萬德國公民的匿名瀏覽歷史數(shù)據(jù)集當(dāng)中重新識(shí)別出多位政治家,并據(jù)此得到了其醫(yī)療信息與性取向結(jié)論。幾個(gè)月前,澳大利亞衛(wèi)生部公開發(fā)布了涵蓋國內(nèi)10%人口的去身份醫(yī)療記錄,但研究人員僅在6周之后就完成了重新識(shí)別。在此之前,有研究表明,我們完全可以利用基本人口統(tǒng)計(jì)學(xué)屬性結(jié)合診斷數(shù)據(jù)、出生年份、性別以及種族等基因組研究數(shù)據(jù)實(shí)現(xiàn)患者身份的唯一性識(shí)別。最后,研究人員們還發(fā)現(xiàn),來自紐約的出租車路線、倫敦的共享自行車使用方式、里加的地鐵出行數(shù)據(jù)以及移動(dòng)電話與信用卡數(shù)據(jù)集等所謂匿名信息,都可用于對(duì)個(gè)人進(jìn)行唯一性識(shí)別。
關(guān)于這個(gè)論題,倫敦帝國理工學(xué)院計(jì)算隱私助理教授Yves-Alexandre de Montjoye作為作者之一,日前在《自然:通訊》雜志發(fā)表了名為《利用生成模型估算通過不完整數(shù)據(jù)集復(fù)原個(gè)人身份的成功率》(論文鏈接:https://www.nature.com/articles/s41467-019-10933-3)的研究論文,他表示,在過去25年當(dāng)中,數(shù)據(jù)匿名化的基本作用就是在幫助我們?cè)诶脭?shù)據(jù)進(jìn)行統(tǒng)計(jì)與研究之外,保護(hù)人們的隱私。然而,大部分常用的匿名化技術(shù)起源于二十世紀(jì)九十年代,也就是互聯(lián)網(wǎng)快速發(fā)展之前。換言之,這些匿名技術(shù)并沒有考慮到互聯(lián)網(wǎng)在收集個(gè)人健康、財(cái)務(wù)、購物以及瀏覽習(xí)慣等細(xì)節(jié)方面的強(qiáng)大能力,從而使得我們能夠相對(duì)容易地將匿名數(shù)據(jù)與特定個(gè)人關(guān)聯(lián)起來。
例如,如果私人偵探打算在紐約市尋找某人,已經(jīng)確定其為男性、年齡在30到35歲之間且患有糖尿病,那么搜索工作將簡單得多。如果再配合其生日、孩子數(shù)量、郵政編碼、所在企業(yè)以及所擁有的車輛型號(hào),那么他們甚至可以很快推斷出此人的真實(shí)身份。
過去幾年以來,Montjoye和其他研究人員曾先后發(fā)表多份研究報(bào)告,探討如何通過匿名購物數(shù)據(jù)或者健康記錄復(fù)原個(gè)人身份。他們提出了一種基于copula的生成方法,其能夠在完整度極低的數(shù)據(jù)集當(dāng)中準(zhǔn)確估算出特定人士被正確重新識(shí)別的可能性。在總計(jì)210名測(cè)試對(duì)象當(dāng)中,他們的方法獲得的個(gè)體唯一性預(yù)測(cè)AUC分?jǐn)?shù)范圍在0.84至0.97之間,代表其準(zhǔn)確率已經(jīng)非常可觀。利用這套模型,他們發(fā)現(xiàn)在使用15項(xiàng)人口統(tǒng)計(jì)屬性的任意數(shù)據(jù)集當(dāng)中,美國普通民眾的真實(shí)身份有99.98%的機(jī)率被成功復(fù)原。雖然15項(xiàng)人口統(tǒng)計(jì)信息聽起來很多,但其中卻蘊(yùn)藏著不容忽視的大問題——2017年,一家營銷分析公司曾意外發(fā)布了包含248項(xiàng)屬性的匿名數(shù)據(jù)集,涵蓋美國1.23億個(gè)家庭。
配合社會(huì)人口統(tǒng)計(jì)學(xué)、調(diào)查與健康數(shù)據(jù)集,Montjoye及其團(tuán)隊(duì)證明這套模型在估算群體唯一性時(shí)的平均絕對(duì)誤差(MAE)為0.018;即使僅利用1%的數(shù)據(jù)比例進(jìn)行訓(xùn)練,其MAE仍可達(dá)到0.041。經(jīng)過訓(xùn)練,模型能夠準(zhǔn)確預(yù)測(cè)出個(gè)體的重新識(shí)別結(jié)論是否正確:如果設(shè)定95%的準(zhǔn)確度作為閾值(