深度學(xué)習(xí)遇上物理學(xué),更好地識(shí)別粒子和分析數(shù)據(jù)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
當(dāng)你向Facebook上傳了一張你朋友的照片后,這張照片就進(jìn)入了一個(gè)復(fù)雜的幕后處理過(guò)程。算法迅速行動(dòng)并分析照片的每一個(gè)像素,直到將朋友的名字和這張照片匹配起來(lái)。這類型的前沿技術(shù)也被用在了自動(dòng)駕駛汽車上,使得自動(dòng)駕駛汽車能夠從背景中區(qū)分行人和其它車輛。
這項(xiàng)技術(shù)也可以用來(lái)區(qū)分μ介子和電子嗎?很多物理學(xué)家相信這一點(diǎn)。在該領(lǐng)域的研究人員正著手運(yùn)用它來(lái)分析粒子物理數(shù)據(jù)。
支持者們希望利用深度學(xué)習(xí)節(jié)省實(shí)驗(yàn)時(shí)間、金錢(qián)和人力,讓物理學(xué)家們做其它不太繁瑣的工作。另一些人希望能提高實(shí)驗(yàn)的結(jié)果,相比以前使用的任何算法,這個(gè)算法能使他們更好地識(shí)別粒子和分析數(shù)據(jù)。盡管物理學(xué)家們不認(rèn)為深度學(xué)習(xí)是萬(wàn)能的,但一些人認(rèn)為它可能在應(yīng)對(duì)即將到來(lái)的數(shù)據(jù)處理危機(jī)中起到關(guān)鍵作用。
神經(jīng)網(wǎng)絡(luò)
直至今日,計(jì)算機(jī)科學(xué)家們?nèi)越?jīng)常人工編寫(xiě)算法,一個(gè)任務(wù)往往需要無(wú)數(shù)個(gè)小時(shí)的復(fù)雜計(jì)算機(jī)語(yǔ)言工作。“我們?nèi)匀蛔鲋诲e(cuò)的科學(xué)工作,”費(fèi)米國(guó)立加速器實(shí)驗(yàn)室的科學(xué)家Gabe Perdue說(shuō),“但是我認(rèn)為科學(xué)工作還可以做得更好。”
而如果要使用深度學(xué)習(xí),我們則需要一種不同的人類輸入。
一種實(shí)現(xiàn)深度學(xué)習(xí)的方法是使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)。CNN是模擬人類視覺(jué)感知建模的。人類用自身的神經(jīng)元網(wǎng)絡(luò)處理圖像;CNN通過(guò)輸入層節(jié)點(diǎn)(node)來(lái)處理圖像。人們通過(guò)向網(wǎng)絡(luò)送入預(yù)處理的圖像來(lái)訓(xùn)練CNN。通過(guò)學(xué)習(xí)這些輸入,算法會(huì)不斷調(diào)整各節(jié)點(diǎn)的權(quán)重并因此學(xué)會(huì)識(shí)別模式和相關(guān)點(diǎn)。由于算法不斷修正這些權(quán)重,預(yù)測(cè)結(jié)果會(huì)變得越來(lái)越準(zhǔn)確,甚至超越人類。
卷積神經(jīng)網(wǎng)絡(luò)以通過(guò)將多個(gè)權(quán)重綁在一起的方式來(lái)縮短分解數(shù)據(jù)處理的步驟,這意味著必須調(diào)整的算法元素更少。
CNN出現(xiàn)于90年代末。但是近年來(lái)隨著許多方面的突破(如處理圖形的硬件價(jià)格降低、訓(xùn)練數(shù)據(jù)集不斷擴(kuò)增以及CNN架構(gòu)本身的創(chuàng)新),越來(lái)越多的研究人員開(kāi)始使用它們。
CNN的發(fā)展導(dǎo)致語(yǔ)音識(shí)別、翻譯以及其它傳統(tǒng)上由人類完成的任務(wù)的進(jìn)步。一家Alphabet(谷歌母公司)旗下位于倫敦的公司DeepMind使用CNN創(chuàng)建了AlphaGo,這個(gè)計(jì)算機(jī)程序在3月份打敗了世界排名第二的圍棋選手,圍棋是比國(guó)際象棋更復(fù)雜的策略棋盤(pán)游戲。
CNN使得我們可以更從容地處理大量的基于圖像的數(shù)據(jù),而之前我們對(duì)這些數(shù)據(jù)束手無(wú)策——高能物理學(xué)中經(jīng)常會(huì)碰到這種圖像數(shù)據(jù)。
進(jìn)入物理學(xué)領(lǐng)域
隨著大數(shù)據(jù)和具有處理大量信息所必需的計(jì)算能力的圖形處理單元(GPU)的出現(xiàn),CNN在2006年開(kāi)始得到大規(guī)模運(yùn)用。Perdue說(shuō):“從那之后,精確度有了很大的提高,人們也還一直在繼續(xù)高速地創(chuàng)新。”
大約一年前,各類高能物理實(shí)驗(yàn)的研究人員開(kāi)始考慮將CNN引入他們的實(shí)驗(yàn)的可能性。“我們把物理問(wèn)題變成了:‘我們能否分辨一輛自行車和汽車?’”SLAC國(guó)家加速器實(shí)驗(yàn)室研究員Michael Kagan說(shuō),“我們只想弄清楚如何以正確的方式重組問(wèn)題。”
在大多數(shù)情況下,CNN將用于粒子識(shí)別和分類以及粒子軌跡重建。一些實(shí)驗(yàn)已經(jīng)使用CNN來(lái)分析粒子的相互作用,其準(zhǔn)確性很高。例如,NOvA中微子實(shí)驗(yàn)的研究人員已經(jīng)將CNN應(yīng)用到了其數(shù)據(jù)上。
“CNN 本來(lái)是用于識(shí)別動(dòng)物和人的圖片,但它也能很好的用于物理領(lǐng)域的識(shí)別,”費(fèi)米實(shí)驗(yàn)室科學(xué)家Alex Himmel 說(shuō),“預(yù)測(cè)結(jié)果非常好——相當(dāng)于我們的檢測(cè)器多產(chǎn)生了30% 的數(shù)據(jù)。”
從事大型強(qiáng)子對(duì)撞機(jī)(LHC/Large Hadron Collider)實(shí)驗(yàn)的科學(xué)家們希望借助深度學(xué)習(xí)來(lái)使他們的實(shí)驗(yàn)更自動(dòng)化,CERN 物理學(xué)家Maurizio Pierini 說(shuō):“我們正試圖在一些任務(wù)上取代人。用人來(lái)看管比用計(jì)算機(jī)看管要昂貴得多。”
在檢測(cè)器物理學(xué)以外,CNN 也被證明是有用的。在天體物理學(xué)方面,一些科學(xué)家正在開(kāi)發(fā)可以發(fā)現(xiàn)新的引力透鏡的CNN;引力透鏡是指可以扭曲來(lái)自它們后面的遙遠(yuǎn)星系的光的大型天體(如星系團(tuán)(galaxy clusters))。對(duì)望遠(yuǎn)鏡數(shù)據(jù)掃描以尋找引力透鏡扭曲現(xiàn)象的過(guò)程是非常耗時(shí)的,并且普通的模式識(shí)別程序難以區(qū)分它們的特征。
“公平地說(shuō),在使用這些工具時(shí),我們僅僅涉及了很淺的部分,”在費(fèi)米實(shí)驗(yàn)室的NOvA 實(shí)驗(yàn)項(xiàng)目工作的威廉瑪麗學(xué)院博士后研究員Alex Radovic 說(shuō)。
未來(lái)的數(shù)據(jù)盛宴
一些科學(xué)家認(rèn)為神經(jīng)網(wǎng)絡(luò)可以幫助應(yīng)對(duì)他們預(yù)見(jiàn)的即將到來(lái)的數(shù)據(jù)處理危機(jī)。
計(jì)劃于2025年推出的升級(jí)版大型強(qiáng)子對(duì)撞機(jī)將產(chǎn)生大約10倍的數(shù)據(jù)。暗能量光譜儀(Dark Energy Spectroscopic Instrument)將收集大約3500萬(wàn)個(gè)宇宙物體的數(shù)據(jù),大型綜合巡天望遠(yuǎn)鏡(Large SynopTIc Survey Telescope)將捕獲近400億個(gè)星系的高分辨率視頻。
數(shù)據(jù)量一定會(huì)飛速增長(zhǎng),但從前計(jì)算機(jī)芯片處理能力的指數(shù)級(jí)增長(zhǎng)預(yù)計(jì)將會(huì)陷入停頓。這意味著處理更大量的數(shù)據(jù)將越來(lái)越昂貴。
“對(duì)于10倍的碰撞次數(shù),你可能需要超過(guò)100倍的處理能力,”Pierini 說(shuō)。“用傳統(tǒng)的做事方式,我們會(huì)走入死胡同。”
然而,并不是所有的實(shí)驗(yàn)都適用于該技術(shù)。
“我認(rèn)為有時(shí)這會(huì)是正確的工具,但它不會(huì)一直是正確的,”Himmel 說(shuō),“數(shù)據(jù)與自然圖像越不相似,神經(jīng)網(wǎng)絡(luò)的有用性越低。”
大多數(shù)物理學(xué)家都同意,CNN 不適合剛剛啟動(dòng)的實(shí)驗(yàn)中的數(shù)據(jù)分析,因?yàn)樯窠?jīng)網(wǎng)絡(luò)對(duì)于計(jì)算過(guò)程不是很透明。“這會(huì)很難說(shuō)服人們相信他們已經(jīng)發(fā)現(xiàn)了新的東西,”Pierini 說(shuō),“我認(rèn)為用紙和筆做事情仍然是有價(jià)值的。”
在某些情況下,運(yùn)用CNN 的挑戰(zhàn)將超過(guò)獲益。例如,如果數(shù)據(jù)尚未轉(zhuǎn)換為圖像格式,則需要將其轉(zhuǎn)換為圖像格式。并且神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)用于訓(xùn)練——有時(shí)不得不模擬數(shù)百萬(wàn)的圖像。即使這樣,模擬也不如真實(shí)數(shù)據(jù)那么好。因此,神經(jīng)網(wǎng)絡(luò)必須用實(shí)際數(shù)據(jù)和其它交叉檢查進(jìn)行測(cè)試。
“一個(gè)高標(biāo)準(zhǔn)的物理學(xué)家能夠接受任何新事物,”德克薩斯大學(xué)阿靈頓分校的物理學(xué)副教授Amir Farbin 說(shuō),“需要跨越很多障礙去說(shuō)服大家這是對(duì)的。”
展望未來(lái)
對(duì)于那些相信CNN 結(jié)果的人,CNN 意味著更快的物理學(xué)和值得期待的未知。
一些人希望用神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)數(shù)據(jù)中的異常,這可以指示檢測(cè)器中的缺陷或者為新發(fā)現(xiàn)指引線索。為了尋找新發(fā)現(xiàn),研究人員可以只是讓 CNN 遍歷數(shù)據(jù)并試圖找到突出點(diǎn),而不是一定要找到具有特定標(biāo)志的新事物。“不必指定要搜索的新物理的領(lǐng)域,”Pierini 說(shuō),“這里獲取數(shù)據(jù)的方式更開(kāi)放。”
日后,研究人員甚至可能開(kāi)始采用無(wú)監(jiān)督學(xué)習(xí)來(lái)處理物理數(shù)據(jù)。無(wú)監(jiān)督學(xué)習(xí),顧名思義,是指可以無(wú)需人工指導(dǎo)就訓(xùn)練大量數(shù)據(jù)的算法??茖W(xué)家可以傳輸給該算法相應(yīng)的數(shù)據(jù),然后該算法就能從中得出結(jié)論。
“如果你足夠聰明,你可以使用它來(lái)做所有類型的事情,”Perdue 說(shuō),“如果它能夠推斷新的自然規(guī)律或類似定律,這將是驚人的。”
“但是,”他補(bǔ)充道,“那樣的話,我也要去尋找新的工作了。”