黑客是如何利用人工智能進行網(wǎng)絡攻擊
機器學習是人工智能的一個分支,通過經(jīng)驗學習和適應的技術來使計算機模仿人類認知。其特征是基于經(jīng)驗和模式學習,而非基于推論(原因和結果)學習。目前,機器學習方面的深度學習已經(jīng)能夠自主建立模式識別模型,而無需再依靠人類來構建模型。
傳統(tǒng)網(wǎng)絡安全技術很難檢測到隨著時間推移而演變的新一代惡意軟件和網(wǎng)絡攻擊,基于ML的動態(tài)網(wǎng)絡安全解決方案能夠利用以前的網(wǎng)絡攻擊數(shù)據(jù)來應對更新但相似的風險。使用AI來加強網(wǎng)絡安全可以為用戶系統(tǒng)提供更多保護,如通過自動化復雜流程來檢測攻擊并對違規(guī)行為做出反應等。
隨著模式識別模型在檢測網(wǎng)絡安全威脅時變得更為有效,黑客將針對底層模型的工作和學習機制展開研究,尋找混淆模型的有效方法來規(guī)避模型的識別,并有望建立起屬于攻擊者自己的AI和機器學習工具來發(fā)動攻擊。
下面筆者將與諸君共同分享攻擊者將會如何利用AI來達到目的。
1. 惡意軟件逃逸大部分惡意軟件都是通過人工方式生成的,攻擊者會編寫腳本來生成電腦病毒和特洛伊木馬,并利用Rootkit、密碼抓取和其他工具協(xié)助分發(fā)和執(zhí)行。
這個過程能加快么?機器學習可以幫助創(chuàng)建惡意軟件嗎?
機器學習方法是用作檢測惡意可執(zhí)行文件的有效工具,利用從惡意軟件樣本中檢索到的數(shù)據(jù)(如標題字段、指令序列甚至原始字節(jié))進行學習可以建立區(qū)分良性和惡意軟件的模型。然而分析安全情報能夠發(fā)現(xiàn),機器學習和深度神經(jīng)網(wǎng)絡存在被躲避攻擊(也稱為對抗樣本)所迷惑的可能。
2017年,第一個公開使用機器學習創(chuàng)建惡意軟件的例子在論文《GeneraTIng Adversarial Malware Examples for Black-Box Attacks Based on GAN》中被提出。惡意軟件作者通常無法訪問到惡意軟件檢測系統(tǒng)所使用機器學習模型的詳細結構和參數(shù),因此他們只能執(zhí)行黑盒攻擊。論文揭示了如何通過構建生成對抗網(wǎng)絡(generaTIve adversarial network, GAN)算法來生成對抗惡意軟件樣本,這些樣本能夠繞過基于機器學習的黑盒檢測系統(tǒng)。
如果網(wǎng)絡安全企業(yè)的AI可以學習識別潛在的惡意軟件,那么“黑客AI”就能夠通過觀察學習防惡意軟件AI做出決策,使用該知識來開發(fā)“最小程度被檢測出”的惡意軟件。2017 DEFCON會議上,安全公司Endgame透露了如何使用Elon Musk的OpenAI框架生成定制惡意軟件,且所創(chuàng)建的惡意軟件無法被安全引擎檢測發(fā)現(xiàn)。Endgame的研究是基于看起來有惡意的二進制文件,通過改變部分代碼,改變后的代碼可以躲避防病毒引擎檢測。
今年3月發(fā)表的論文《Adversarial Malware Binaries: Evading Deep Learning for Malware DetecTIon in Executables》通過研究使用深度網(wǎng)絡從原始字節(jié)中學習惡意軟件檢測方法所存在的漏洞,提出了一種基于梯度的攻擊:輸入數(shù)據(jù)的微小變化會導致在測試時的錯誤分類,因此只需在每個惡意軟件樣本末尾更改少量特定字節(jié),就可在保留其入侵功能的同時逃避安全檢測。結果顯示修改少于1%的字節(jié),對抗惡意軟件二進制就可以高概率躲避安全檢測。
2. 高級魚叉式釣魚攻擊對抗機器學習的一個更明顯的應用是使用智能社會工程中的文本到語音轉換、語音識別和自然語言處理類似算法,通過時間遞歸神經(jīng)網(wǎng)絡教授軟件的電子郵件寫作風格,使其真實性、可信性得以增強。因此從理論上來說,網(wǎng)絡釣魚郵件可能將變得更加復雜和可信。
在邁克菲實驗室2017年預測中表示,犯罪分子將越來越多地利用機器學習來分析大量被盜記錄,以識別潛在受害者,并構建能夠更加有效針對這些人的內容詳盡的釣魚類電子郵件。
此外,在2016年美國黑帽會議上,John Seymour和Philip Tully發(fā)表了題為《Weaponzing data secience for social engineering:automated E2E spear phishing on Twitter》的論文,提出一種時間遞歸神經(jīng)網(wǎng)絡SNAP_R,學習如何向特定用戶發(fā)布網(wǎng)絡釣魚帖子在這里魚叉式釣魚將用戶發(fā)布的帖子作為訓練測試數(shù)據(jù),根據(jù)目標用戶(包括發(fā)布或跟帖用戶)時間軸帖子中的主題動態(tài)播種會使得釣魚帖子更有可能被點擊。通過在Twitter社交平臺上測試發(fā)現(xiàn),為用戶量身定做的釣魚帖子,其點擊率是有史以來所報道過大規(guī)模釣魚攻擊活動中最高的。
3. 利用AI擊敗驗證碼目前,對人和機器的區(qū)分主要采用“全自動區(qū)分計算機和人類的公開圖靈測試”(Completely Automated Public Turing test to tell Computers and Humans Apart,CAPTCHA),俗稱驗證碼,以防止人們使用自動化機器人在網(wǎng)站上設置虛假帳戶。在登錄網(wǎng)站時,用戶必須通過解決視覺難題來證明他們是人類,而這需要識別以某種方式失真或動畫化的字母、數(shù)字、符號或對象。reCAPTCHA項目是由卡內基梅隆大學所發(fā)展的系統(tǒng),主要目的是利用CAPTCHA技術來幫助典籍數(shù)字化的進行,這個項目將由書本掃描下來無法準確被光學文字辨識技術(OCR, OpTIcal Character Recognition)識別的文字顯示在CAPTCHA問題中,讓人類在回答CAPTCHA問題時用人腦加以識別這些文字。
早在2012年,研究人員Claudia Cruz、Fernando Uceda和Leobardo Reyes就發(fā)布了一個機器學習安全攻擊的例子。他們使用支持向量機(SVM)以82%的精度破解了圖像運行系統(tǒng)reCAPTCHA,也正因此所有驗證碼機制都進行了針對性的安全改進,面對這些新型驗證碼系統(tǒng)研究人員則開始嘗試使用深度學習技術予以破解。
Vicarious一直在開發(fā)針對概率生成模型Recursive Cortical Network(RCN)的算法,旨在通過分析圖像中的像素來識別物體,以查看它們是否與物體的輪廓匹配。2013年,Vicarious宣布它已經(jīng)破解了Google、Yahoo、PayPal和Captcha.com使用的基于文本的驗證碼測試,其準確率達到了90%。標準的reCAPTCHA測試中,軟件可成功解開三分之二的驗證問題。在機器人檢測系統(tǒng)測試中,雅虎驗證碼的成功率為57.4%,PayPal的成功率為57.1%。
去年BlackHat上的“我是機器人”研究揭示了研究人員如何破解最新的語義圖像CAPTCHA,并比較了各種機器學習算法。
4. 繞過安全檢測的釣魚網(wǎng)頁《Cracking Classifiers for Evasion: A Case Study on the Google’s Phishing Pages Filter》指出,Google中的釣魚網(wǎng)頁分類器是通過機器學習訓練得到的,攻擊者利用逆向工程技術獲取到分類器的部分信息后,藉此所生成的新釣魚網(wǎng)頁能夠以100%的成功率繞開Google的釣魚網(wǎng)頁分類器。早期開發(fā)的分類器屬于研究性質,在部署于客戶端環(huán)境中時,其安全性并沒有得到應有的重視。
研究客戶端分類器安全挑戰(zhàn)所選取的案例為部署在Chrome瀏覽器上、用戶數(shù)量超過十億的谷歌釣魚網(wǎng)頁過濾器(Google’s phishing pages filter ,GPPF),針對客戶端分類器的新攻擊方法被稱為分類器破解。成功破解GPPF分類模型,可以從中獲得足夠知識(包括分類算法、得分規(guī)則和特征等)以進行有效的躲避攻擊。攻擊者通過逆向工程能夠獲取到84.8%的評分規(guī)則,其中覆蓋了大部分的高權重規(guī)則?;谶@些破解信息實施針對GPPF的兩種規(guī)避攻擊,在100個真正的釣魚網(wǎng)頁進行測試后發(fā)現(xiàn),所有釣魚網(wǎng)頁(100%)都可以很容易地繞過GPPF檢測。研究表明現(xiàn)有的客戶端分類器很容易受到分類器針對性攻擊。
5. 讓機器學習引擎“中毒”一個更加簡單而有效的AI利用技術是讓用于檢測惡意軟件的機器學習引擎“中毒”,使其無效,就像過去犯罪分子對殺毒引擎所做的一樣。機器學習模型需要從輸入數(shù)據(jù)中進行學習,如果該數(shù)據(jù)池“中毒”,則輸出也會“中毒”。深度神經(jīng)網(wǎng)絡訓練需要大量的計算資源,因此,許多用戶在云端進行訓練或依靠預先訓練的模型進行識別,并針對特定任務進行微調。紐約大學的研究人員在論文《BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain》中展示了外部訓練的神經(jīng)網(wǎng)絡存在的漏洞:對手能產(chǎn)生一個惡意的訓練網(wǎng)絡(后門神經(jīng)網(wǎng)絡或BadNets),同時在MNIST數(shù)字識別和交通標志檢測任務中展示了BadNets攻擊的有效性。
黑客正在越來越多的利用AI漏洞構建“對抗樣本”進行躲避攻擊,目前所能采取的應對措施主要是:用博弈論或者概率模型預測攻擊策略構造更強健的分類器,采用多個分類器系統(tǒng)增加規(guī)避難度,并優(yōu)化特征選擇來制作特征平均分配等。更多的AI攻擊應對方法還在探索之中。