10 萬個名人,1000 萬張照片,全球最大人臉識別數(shù)據(jù)庫被刪除了
人臉識別技術(shù)發(fā)展到今天,已經(jīng)不僅僅在技術(shù)發(fā)展層面受到關(guān)注,實(shí)際上,在政策和用戶隱私層面,它引起的爭議越來越多,在某些區(qū)域或者領(lǐng)域也頗不受待見(參見記者此前報(bào)道);比如說,2019 年 5 月,舊金山市對人臉識別技術(shù)發(fā)出了禁令,禁止該技術(shù)在政府機(jī)關(guān)和執(zhí)法機(jī)關(guān)中使用,從而成為全球首個對人臉識別技術(shù)發(fā)出禁令的城市。
近日,微軟公司悄然刪除了該公司于 2016 年發(fā)布的人臉識別數(shù)據(jù)庫 MS-Celeb-1M——該數(shù)據(jù)庫是全球最大的公開人臉識別數(shù)據(jù)庫。
微軟為什么要發(fā)布 MS-Celeb-1M 數(shù)據(jù)庫?
2016 年 8 月,微軟在官網(wǎng)中公布了一篇題為《MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition》的論文,論文作者包括來自微軟研究院的 Yandong Guo(郭彥東,目前他已經(jīng)離開微軟加入到小鵬汽車), Lei Zhang(張磊), Yuxiao Hu, Xiaodong He, Jianfeng Gao 等人。
在這篇論文中,微軟介紹了一個名為 MS-Celeb-1M 的人臉識別挑戰(zhàn)賽,參賽者需要根據(jù)微軟提供的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)來開發(fā)自己的圖像識別系統(tǒng),以便從 100 萬個名人名單中進(jìn)行人臉識別。
與此同時,隨著這一挑戰(zhàn)賽,微軟也發(fā)布了一個面向公眾開放下載的大規(guī)模人臉識別數(shù)據(jù)集 MS-Celeb-1M,其中第一個版本包含了 10 萬個名人(根據(jù)他們的受歡迎程度,從上述 100 萬個名人名單中選擇而來)的 1000 萬張臉部照片,來供研究者開發(fā)自己的人臉識別技術(shù)——微軟宣稱,這些照片來自于人們常用的搜索引擎,也就是公開渠道。
以 Lady Gaga 為例,我們來看一下數(shù)據(jù)庫中的相關(guān)照片:
微軟宣稱,該數(shù)據(jù)庫是全球最大的公開人臉識別數(shù)據(jù)庫。
微軟技術(shù)與研究院首席研究員 / 研究經(jīng)理張磊(即上述論文作者中的 Lei Zhang)博士曾對外表示,MS-Celeb-1M 的目標(biāo)是識別百萬人臉,是計(jì)算機(jī)視覺內(nèi)最大規(guī)模的分類問題,并且其中一個人物對應(yīng)一個 entity,綁定了知識庫,并且知識庫中提供了每個人的職業(yè),性別等等豐富的信息,從而解決了人物重名的問題,可以從識別達(dá)到認(rèn)知。
基于這一數(shù)據(jù)庫,微軟舉行了 MS-Celeb-1M 百萬名人識別競賽,這一競賽被業(yè)界認(rèn)為是人臉識別的年度 “世界杯”。記者(公眾號:記者)了解到,在 2017 年的微軟百萬名人識別競賽中:Panasonic-新加坡國立大學(xué)合作奪得第一,CIGIT(中科院重慶綠色智能技術(shù)研究院)和中科院合作隊(duì)伍位列第二,美國東北大學(xué)位列第三。
雖然在微軟的認(rèn)知中,最開始這個數(shù)據(jù)集是面向?qū)W術(shù)界做的,但后來,這一數(shù)據(jù)集被許多工業(yè)界的同行所使用。
根據(jù)相關(guān)的引文資料,MS-Celeb-1M 數(shù)據(jù)庫已經(jīng)被多商業(yè)機(jī)構(gòu)所使用,比如說 IBM、松下電氣、阿里巴巴、輝達(dá)、日立、商湯科技、曠視科技等,甚至有消息稱,也有相關(guān)的軍事研究人員采用了這一數(shù)據(jù)庫來訓(xùn)練面部識別系統(tǒng)。
微軟刪除了,但它存在于全世界的硬盤里
然而,伴隨著人臉識別技術(shù)的發(fā)展,人們對相關(guān)隱私的關(guān)注和擔(dān)憂越來越多增加,也有人認(rèn)為微軟的這一數(shù)據(jù)庫涉嫌侵犯隱私,比如說來自德國柏林的藝術(shù)家和技術(shù)專家 Adam Harvey,他在自己的 Megapixel 項(xiàng)目中記載了包括 MS-Celeb-1M 在內(nèi)的數(shù)據(jù)庫的詳細(xì)信息以及使用用戶。
Adam Harvey 認(rèn)為,微軟用 Celebrity 一詞指的是那些在網(wǎng)上工作并且在數(shù)字世界具備知名度的人,而不僅僅是 Lady Gaga、Steve Jobs 這樣的名人。
比如說,有媒體在針對 MS-Celeb-1M 數(shù)據(jù)庫中的人臉進(jìn)行核實(shí)后發(fā)現(xiàn),MS-Celeb-1M 的確包含了不少名人的照片,比如說 Lady Gaga、Steve Jobs 等,但是也包含一些媒體人的信息,比如說《連線》雜志負(fù)責(zé)報(bào)道網(wǎng)絡(luò)犯罪、網(wǎng)絡(luò)安全、隱私等問題的高級記者 Kim Zetter。
實(shí)際上,針對微軟涉嫌侵犯隱私問題,英國《金融時報(bào)》也設(shè)法聯(lián)系了被收錄在 MS-Celeb-1M 數(shù)據(jù)庫的當(dāng)事人,某些當(dāng)事人甚至根本不知道自己的照片已經(jīng)被收錄——比如說科技作家 Adam Greenfield;他在接受采訪時表示,自己絕不是公眾人士,無法放棄自己的隱私權(quán)。
也就是說,微軟在數(shù)據(jù)庫中使用的照片,并沒有征得當(dāng)事人的同意,即使他們是名人。
當(dāng)然,微軟自己也意識到了這個問題,目前它已經(jīng)刪除了 MS-Celeb-1M 數(shù)據(jù)庫;在對英國《金融時報(bào)》的回應(yīng)中,微軟表示:
這個網(wǎng)站原本是用于學(xué)術(shù)目的,它是由微軟的一個前員工來運(yùn)營的。目前,該員工已經(jīng)離開微軟,因此我們也已經(jīng)移除了它。
值得一提的是,伴隨著微軟刪除了 MS-Celeb-1M 數(shù)據(jù)庫,另外兩個學(xué)術(shù)單位也刪除了它們旗下的類似相關(guān)數(shù)據(jù)庫,包括由杜克大學(xué)研究人員建造的 Duke MTMC 監(jiān)控?cái)?shù)據(jù)庫和斯坦福大學(xué)的 Brainwash 數(shù)據(jù)庫。
就目前的情況來看,微軟用來介紹 MS-Celeb-1M 項(xiàng)目的網(wǎng)站還在,但是數(shù)據(jù)集本身已經(jīng)不能下載;然而,據(jù)記者搜索發(fā)現(xiàn),相關(guān)的數(shù)據(jù)庫資源依然可以從其他網(wǎng)站進(jìn)行下載。更重要的是,作為一個公開下載的數(shù)據(jù)集,MS-Celeb-1M 實(shí)際上已經(jīng)存在于不少企業(yè)或機(jī)構(gòu)的本地硬盤中,被用作各類的用途,而照片當(dāng)事人卻無法左右。
正如,Adam Harvey 所言:
一旦你發(fā)布了它,人們下載了它,那它就會存在于全世界的硬盤里。