性別偏見只存在人類之中嗎?機器學習中也存在
去年秋天,弗吉尼亞大學計算機科學專業(yè)的教授文森特·歐多尼茲注意到,他所設計的圖像識別軟件出現(xiàn)了一些猜想模式。當軟件識別一張廚房照片時,往往會將其和女性聯(lián)系起來而非男性。這讓歐多尼茲懷疑,自己和其他研究人員是否無意識地在他們的軟件中摻進了偏見。因此,他與同事合作,測試了兩大組用于訓練圖像識別軟件的圖片集。結(jié)果令人深思。在烹飪和體育活動方面,微軟和 Facebook 所收集的照片反映出了明顯的偏見。例如,購物和洗滌的圖像與女性相關,而訓練和射擊的圖像則與男性相關。
采用數(shù)據(jù)集進行訓練的機器學習軟件非但反映了這些偏見,更是放大了偏見。如果用來學習的圖片集都將婦女與烹飪關聯(lián)在一起,那么軟件通過學習則會強化這種聯(lián)系。人工智能研究所的研究員馬克·雅斯卡表示,這種現(xiàn)象也會放大數(shù)據(jù)中的其他偏見,例如種族偏見。雅斯卡曾經(jīng)在華盛頓大學與歐多尼茲和其他人共事過,他表示,“這不但會加重現(xiàn)有的社會偏見,甚至會讓偏見惡化下去。”
大量復雜的機器學習程序不斷出現(xiàn),這種偏見也日益凸顯起來。在研究人員的測試中,身處廚房的人更可能被貼上“女性”標簽,而不能反映出實際的學習結(jié)果。在研究人員的一篇論文中,一位身處爐子旁的男性則被判定為“女性”。如果這些判定方法進入到科技公司中,很可能會影響到照片存儲服務和家庭助手,比如亞馬遜的攝像頭或是使用社交媒體照片來辨別消費者偏好的工具。2015年,谷歌偶然展示了不當圖像軟件的危險性,當時,它的照片服務竟將黑人判定為大猩猩。
人工智能系統(tǒng)正承擔起越加復雜的任務,風險也越發(fā)地不可估量。雅斯卡描述了這樣一個場景,當機器人無法確定某人在廚房里做什么時,它會遞給男性一杯啤酒,而幫助女性洗盤子。他表示:“如果一個系統(tǒng)的行為能通過性別明確劃分,這個系統(tǒng)就無法有效地發(fā)揮其效用。”
大約五年前,在機器學習實現(xiàn)了突破之后,科技公司開始嚴重依賴從成堆數(shù)據(jù)中學習的軟件。最近,研究人員開始向世人揭露機器學習的冷酷無情。去年夏天,來自波士頓大學和微軟的研究人員表示,根據(jù)谷歌新聞進行學習的軟件再現(xiàn)了人類的性別偏見。當對軟件進行提問,“男性是程序員那么女性是?”它的回答是“家庭主婦”。新的研究表明,性別偏見根植于兩組圖片集中,而這原本是用來幫助軟件更好地理解圖像內(nèi)容。研究人員觀察了華盛頓大學的 ImSitu 和微軟的 COCO,每個圖片集都包含了 10 萬多個來自網(wǎng)絡的復雜場景,并配有說明。
兩個數(shù)據(jù)集所包含的男性圖像都要多于女性的,而不同性別對應的事物、活動則反映了研究人員所說的顯著的性別偏見。在 COCO 中,勺子和叉子等廚房物品都與女性高度相關,而類似滑雪板和網(wǎng)球拍等戶外運動設備則更多地與男性相關。當圖像識別軟件通過這些數(shù)據(jù)集進行訓練時,這種偏差就會放大。COCO 數(shù)據(jù)集訓練出來的系統(tǒng)可能會把鼠標、鍵盤和男性更為緊密地聯(lián)系在一起。研究人員設計了一種方法來抵消這種偏見放大現(xiàn)象,即有效使軟件反映其學習數(shù)據(jù)。但它首先要求研究人員找出偏見所在,并明確指出需要修改的內(nèi)容。修正后的軟件仍然會反映原始數(shù)據(jù)中的性別偏見。
微軟研究部主任埃里克·霍維茨說,他希望其他人采用這種方式,因為他們是通過機器學習來設計軟件的。公司內(nèi)部有一個道德委員會,該委員會致力于保持人工智能在公司產(chǎn)品線中的協(xié)調(diào)性?;艟S茨表示: “我和微軟作為一個整體,非常希望能夠找到同時解決在數(shù)據(jù)集和系統(tǒng)中產(chǎn)生的偏見和差距。”借用 COCO 和其他數(shù)據(jù)集的研究人員和工程師們,應該從自己的工作和其他方面尋找偏見產(chǎn)生的跡象。不要從面向兒童的計算機、書籍和其他教育材料中尋找,因為這部分內(nèi)容往往都被調(diào)整過,所呈現(xiàn)的是一個男女均等的理想化世界。霍維茨認為,在某些情況下,可以用類似的方法來訓練軟件。
其他在機器學習中產(chǎn)生的偏見并不顯著。普林斯頓大學的研究員艾琳·卡利斯坎表示,如果男性建筑工人更多,圖像識別程序也應該學習到一點。之后,可以采取相應方法來衡量和調(diào)整偏見。她說:“為了避免偏見,我們正冒著失去基本信息的風險,數(shù)據(jù)集需要反映出世界上真實的統(tǒng)計數(shù)據(jù)。”在這個領域有一項共識,那就是使用機器學習來解決問題比許多人想象的要復雜得多。猶他州大學教授蘇雷什·文卡塔薩布拉曼尼亞說:“有人認為算法可以解決一切問題,而糾正偏見同時也可以糾正這種錯覺。”