厲害了,這個(gè)AI能在大量數(shù)據(jù)中一眼識(shí)別欺詐攻擊
掃描二維碼
隨時(shí)隨地手機(jī)看文章
“人工智能,有多少人工就有多少智能”,這是伴隨人工智能發(fā)展的一句老話了,近來格外引人關(guān)注。
一周前,微信公眾號“GQ報(bào)道”的一篇記述文“通往未來之路 |那些給人工智能打工的人”在朋友圈火了。文章揭示出,在AI企業(yè)估值屢屢超過幾十億的時(shí)候,背后是中國七八線小縣城里無數(shù)猶如“富士康”一樣的AI數(shù)據(jù)標(biāo)注公司。這些公司里的人與高大上的AI沒有一丁點(diǎn)兒關(guān)系,無從接觸也無從理解AI,他們大多是初中高中文憑,每天對著電腦進(jìn)行著機(jī)械而重復(fù)的標(biāo)注工作,比如,在一張圖片里把“梯子”、“茶幾”、“地毯”、“沙發(fā)”都圈出來。通過他們打上的成千上萬的標(biāo)簽,AI公司能夠讓它們的AI系統(tǒng)在看見這些物體時(shí),直接識(shí)別出來。
目前,廣泛應(yīng)用在AI圖像識(shí)別、語音識(shí)別中的有監(jiān)督機(jī)器學(xué)習(xí)需要大量的標(biāo)注數(shù)據(jù)支持,深度學(xué)習(xí)為機(jī)器學(xué)習(xí)帶來巨大進(jìn)步,卻也需要更多、更完善的標(biāo)注數(shù)據(jù),才能達(dá)到好的訓(xùn)練結(jié)果。人們發(fā)展AI的愿景一直是希望AI能將人們從大量的重復(fù)性和機(jī)械性工作中解放出來,而目前AI卻還依賴著“AI數(shù)據(jù)標(biāo)注”這樣的重復(fù)性人類勞動(dòng),成為不少人詬病AI的一點(diǎn)。
但是據(jù)了解,并不是所有AI應(yīng)用領(lǐng)域都能提供大量標(biāo)注數(shù)據(jù),且標(biāo)注數(shù)據(jù)在不同領(lǐng)域也不是都一樣好使。比如,在安全領(lǐng)域的反欺詐中,不需要依靠標(biāo)記數(shù)據(jù)的無監(jiān)督機(jī)器學(xué)習(xí)技術(shù)在很多時(shí)候都比有監(jiān)督機(jī)器學(xué)習(xí)表現(xiàn)更好。
反欺詐領(lǐng)域中的無監(jiān)督機(jī)器學(xué)習(xí)
DataVisor創(chuàng)始人兼CEO謝映蓮告訴,安全領(lǐng)域的反欺詐不滿足有監(jiān)督的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)需要大量的標(biāo)注數(shù)據(jù)這個(gè)前提。欺詐者通常處在活躍變化的狀態(tài)下,他們使用的欺詐手段變化十分迅速,而且他們?yōu)榱舜_保自己不被反欺詐技術(shù)檢測到,在發(fā)起大規(guī)模攻擊之前都會(huì)先進(jìn)行測試。
欺詐的手段日新月異,很難拿到完善的標(biāo)簽數(shù)據(jù);而且在你拿到任何標(biāo)簽之前,其實(shí)意味著損失已經(jīng)產(chǎn)生了;等根據(jù)標(biāo)簽數(shù)據(jù)訓(xùn)練好模型,欺詐者或許已經(jīng)拋棄了這套方法。這三點(diǎn)問題制約著傳統(tǒng)的欺詐檢測以及新興的有監(jiān)督機(jī)器學(xué)習(xí)方法。
傳統(tǒng)的欺詐檢測方法,如規(guī)則引擎、設(shè)備指紋以及有監(jiān)督機(jī)器學(xué)習(xí)、半監(jiān)督機(jī)器學(xué)習(xí),都有一個(gè)共同的局限性,需要在攻擊發(fā)生后,根據(jù)已知攻擊模式和樣本,檢測未來的攻擊。無監(jiān)督學(xué)習(xí)系統(tǒng)則可以在沒有標(biāo)簽的情況下,提前阻止未知欺詐。
有監(jiān)督機(jī)器學(xué)習(xí)和深度學(xué)習(xí)十分火熱,不過,從反欺詐這個(gè)領(lǐng)域來看,我們發(fā)現(xiàn)不是所有的AI技術(shù)在所有的場景下起到同樣的作用。那么,我們?nèi)绾螌⒑线m的技術(shù)與場景相結(jié)合,真正去解決行業(yè)中的痛點(diǎn)問題呢?
DataVisor的系統(tǒng)包括四個(gè)重要組成部分:無監(jiān)督機(jī)器學(xué)習(xí)引擎、有監(jiān)督機(jī)器學(xué)習(xí)、自動(dòng)規(guī)則引擎和全球智能信譽(yù)庫。無監(jiān)督機(jī)器學(xué)習(xí)引擎可同時(shí)分析數(shù)十億賬戶與事件,無需標(biāo)簽和訓(xùn)練數(shù)據(jù)即可自動(dòng)發(fā)掘惡意賬戶間的可疑關(guān)聯(lián)和相似度,并即刻檢測捕獲整個(gè)欺詐團(tuán)伙;有監(jiān)督機(jī)器學(xué)習(xí)引擎可以利用無監(jiān)督學(xué)習(xí)引擎生成的數(shù)據(jù)做訓(xùn)練集,不斷訓(xùn)練出有效的學(xué)習(xí)模型來彌補(bǔ)并增強(qiáng)規(guī)則引擎無法覆蓋的復(fù)雜欺詐行為;自動(dòng)規(guī)則引擎將機(jī)器學(xué)習(xí)模型的能力與規(guī)則引擎的可解釋性進(jìn)行結(jié)合,并及時(shí)更新與淘汰現(xiàn)有規(guī)則;而全球智能信譽(yù)庫利用深度學(xué)習(xí)實(shí)時(shí)計(jì)算,并為客戶提供行業(yè)各類智能信譽(yù)和數(shù)字指紋,如IP地址、地址位置、電子郵件網(wǎng)絡(luò)域名、移動(dòng)設(shè)備類型、操作系統(tǒng)等。
基于以上幾種技術(shù),DataVisor開發(fā)了用戶分析平臺(tái)。由于該平臺(tái)本身就具有通用和可延展性,所以能夠與不同的數(shù)據(jù)、不同的使用場景掛鉤對接,也就出現(xiàn)了八大應(yīng)用場景。
無監(jiān)督機(jī)器學(xué)習(xí)落地不同場景
謝映蓮畢業(yè)于卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)系并取得博士學(xué)位,有超過十年的安全領(lǐng)域行業(yè)經(jīng)驗(yàn),一直致力于打擊大規(guī)模網(wǎng)絡(luò)線上攻擊,此前任職微軟硅谷研究院。2013年謝映蓮在美國創(chuàng)辦DataVisor,當(dāng)時(shí)機(jī)器學(xué)習(xí)方興未艾,還不像現(xiàn)在這樣火爆。
2013年,是企業(yè)全面轉(zhuǎn)型互聯(lián)網(wǎng)的時(shí)代,反欺詐領(lǐng)域也面臨著全新的機(jī)遇:反欺詐的場景從分散的線下場景轉(zhuǎn)變?yōu)楦叨日系木€上場景。此前,在金融領(lǐng)域,辦理信用卡需要去銀行專柜,辦理保險(xiǎn)也需要聯(lián)系特定的代理人員,而現(xiàn)在,辦卡、借貸、買保險(xiǎn)都可以在線上進(jìn)行,且都可以關(guān)聯(lián)到個(gè)人的社交賬號,數(shù)據(jù)互通。另一個(gè)趨勢是,現(xiàn)在一些公司越來越多地跨界,例如互聯(lián)網(wǎng)公司開始涉足金融、保險(xiǎn)、信貸等領(lǐng)域。
線上反欺詐成為一個(gè)新興的龐大市場,有著全新的機(jī)遇,且這個(gè)領(lǐng)域還沒有誕生出大玩家。
反欺詐行業(yè)不斷融合,領(lǐng)域不斷擴(kuò)大,反欺詐的技術(shù)需要具備很強(qiáng)的通用性,而這正是無監(jiān)督機(jī)器學(xué)習(xí)的另一優(yōu)點(diǎn)。有監(jiān)督的機(jī)器學(xué)習(xí)幾乎是需要一個(gè)場景就要一個(gè)模型,甚至需要一份數(shù)據(jù)就要一份模型,而無監(jiān)督的算法有它的自動(dòng)發(fā)覺性,它可以自動(dòng)地去尋找未知的場景,在模型的調(diào)優(yōu)方面,它對數(shù)據(jù)多變性的容忍度更高。
雖然目前DataVisor只是專注于反欺詐這一個(gè)領(lǐng)域,但是在成立之初,謝映蓮就看到了無監(jiān)督機(jī)器學(xué)習(xí)在其他領(lǐng)域的可能性,DataVisor可以成長為平臺(tái)型公司。
目前,DataVisor的服務(wù)對象主要有三種,社區(qū)和交易平臺(tái);銀行和互聯(lián)網(wǎng)金融機(jī)構(gòu);以及游戲、工具類應(yīng)用。
在社交應(yīng)用中,欺詐團(tuán)隊(duì)通常會(huì)大規(guī)模盜號,冒充用戶進(jìn)行欺詐;
在電商應(yīng)用中,惡意的虛假評論會(huì)給商家?guī)韲?yán)重的損失,薅羊毛黨仿冒大量新注冊用戶將平臺(tái)優(yōu)惠都圈走,會(huì)造成大量資金損失;
在金融領(lǐng)域,虛假賬戶、盜刷、套現(xiàn)、洗錢各種欺詐手法層出不窮。
在美國,DataVisor的用戶包括游戲公司IGG、美食點(diǎn)評網(wǎng)站Yelp、圖片社交軟件Pinterest;而在中國,則有京東、大眾點(diǎn)評、餓了么、陌陌、Blued等,共同利用先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)抵御多維度線上攻擊欺詐,如大規(guī)模虛假注冊、虛假申請、垃圾內(nèi)容、薅羊毛、虛假安裝等,幫助其保護(hù)平臺(tái)用戶安全,提升平臺(tái)用戶體驗(yàn),提高用戶滿意度和留存率。
謝映蓮告訴,無監(jiān)督機(jī)器學(xué)習(xí)還有很多的潛在應(yīng)用場景有待開拓,例如將其應(yīng)用在基于用戶的興趣分析用戶的轉(zhuǎn)化率,用戶流失的原因等。
小結(jié)
在看來,相較于圖像識(shí)別、語音識(shí)別、零售、醫(yī)療等領(lǐng)域,安全領(lǐng)域較早地積累起數(shù)據(jù),也較早地將機(jī)器學(xué)習(xí)應(yīng)用到實(shí)踐,為無監(jiān)督機(jī)器學(xué)習(xí)技術(shù)提供了很好的數(shù)據(jù)基礎(chǔ)。很多行業(yè)目前還處在前期的數(shù)據(jù)收集的過程,也依賴于大量的數(shù)據(jù)標(biāo)注。另外,安全領(lǐng)域是一個(gè)高速變化的行業(yè),需要無監(jiān)督機(jī)器學(xué)習(xí)來快速識(shí)別新型欺詐攻擊。
AI的愿景一直是希望AI能將人們從大量的重復(fù)性和機(jī)械性工作中解放出來,在這一方面,無需標(biāo)注數(shù)據(jù)的無監(jiān)督機(jī)器學(xué)習(xí)將是未來趨勢。當(dāng)然,谷歌的AutoML也在致力于使得AI更加自主化、平民化,不過他們解決的是模型設(shè)計(jì)部分。無監(jiān)督機(jī)器學(xué)習(xí)在數(shù)據(jù)清洗、模型優(yōu)化方面也仍然需要行業(yè)背景和資深的AI從業(yè)者參與。理解用戶場景和需求,進(jìn)行數(shù)據(jù)清洗、模型設(shè)計(jì)和調(diào)優(yōu),正是DataVisor的壁壘和優(yōu)勢所在。
無監(jiān)督機(jī)器學(xué)習(xí)有著很強(qiáng)的通用性,在未來,我們或許能看到無監(jiān)督機(jī)器學(xué)習(xí)技術(shù)在更多領(lǐng)域落地。