事實(shí)上,許多具有傳感器的裝置早就存在我們的生活里,如攝像機(jī)、數(shù)碼相機(jī)、喇叭與麥克風(fēng)等也在過去十年左右數(shù)位化并連上網(wǎng)絡(luò)。但連接網(wǎng)絡(luò)攝像機(jī)與網(wǎng)絡(luò)連接儲(chǔ)存裝置(NAS)所組成的數(shù)字監(jiān)控系統(tǒng)相較于過去閉路式、類比訊號(hào)的監(jiān)視裝置,除了儲(chǔ)存資料數(shù)字化之外,在本質(zhì)上并沒有太大的不同,一樣需要人監(jiān)控、回放,并判斷實(shí)際現(xiàn)場(chǎng)情況。但當(dāng)人工智能應(yīng)用普及,影像識(shí)別、語音識(shí)別轉(zhuǎn)成文字不在遙不可及,網(wǎng)絡(luò)攝像機(jī)或現(xiàn)場(chǎng)麥克風(fēng)所傳回的資料都可以即時(shí)通過自動(dòng)識(shí)別,判斷畫面中的物體,加上搜集人臉資訊及現(xiàn)場(chǎng)收音,AI都足以自動(dòng)綜合解讀更多現(xiàn)場(chǎng)狀況,讓安防業(yè)者不再需要配置人力長時(shí)間全神貫注的監(jiān)控,僅需排除異常狀態(tài)。
數(shù)字監(jiān)控系統(tǒng)配上人工智能應(yīng)用,仿佛在機(jī)器中加上了靈魂。如果可以透過人工智能學(xué)習(xí)辨識(shí)不同內(nèi)容組合的場(chǎng)景,并應(yīng)對(duì)相應(yīng)的處理機(jī)制,數(shù)字監(jiān)控系統(tǒng)就能協(xié)助安防管理,并達(dá)成真正的智能化。
然而,要能夠讓攝像機(jī)進(jìn)行影像辨識(shí),除了可以將影像即時(shí)傳輸回主機(jī)上再進(jìn)行計(jì)算判讀外,也可以想辦法透過攝像機(jī)上的處理器直接進(jìn)行計(jì)算與辨識(shí)。前者需要占用大量網(wǎng)絡(luò)傳輸資源,也有延遲時(shí)間的限制,但如果可以在攝像機(jī)里加上適當(dāng)設(shè)計(jì)、低功耗的處理器與作業(yè)系統(tǒng),直接現(xiàn)場(chǎng)進(jìn)行計(jì)算辨識(shí),不但可以降低傳輸成本,也能減少辨識(shí)結(jié)果的延遲時(shí)間,并加快即時(shí)反應(yīng)?!斑吘壷悄堋本褪侵冈诮K端裝置上的處理器與全套作業(yè)系統(tǒng),也可以說是人工智能落實(shí)到真實(shí)生活未來應(yīng)有的最后一里路。
從訓(xùn)練到推論,芯片是最后一塊拼圖!
對(duì)于企業(yè)來說,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks)所帶起的人工智能浪潮,就如同遙遠(yuǎn)的國度發(fā)生了大海嘯,要把如今相對(duì)成熟的圖像識(shí)別、語音識(shí)別或文本翻譯等功能,放進(jìn)真實(shí)環(huán)境做為商業(yè)應(yīng)用還有一段距離。
由于深度學(xué)習(xí)的演算法與相關(guān)應(yīng)用還在快速演進(jìn)的過程中,無論是智能城市、智能零售、智能音箱或無人車等應(yīng)用,仍在大量收集數(shù)據(jù),讓深度學(xué)習(xí)演算法辨別這些資料特征與模式的階段,這個(gè)系統(tǒng)過程我們稱為訓(xùn)練(Training),讓電腦嘗試從我們所搜集的資料來學(xué)習(xí)。
訓(xùn)練的過程需要極大的運(yùn)算量,以圖像識(shí)別為例,要訓(xùn)練電腦模型認(rèn)識(shí)一個(gè)特定物體,例如花朵或貓咪,可能需要至少上千張、多則數(shù)萬張各種不同角度、不同場(chǎng)景、不同光線下所拍攝的照片,因此這樣的運(yùn)算往往在云端或數(shù)據(jù)中心進(jìn)行。如果要求同樣一個(gè)模型能夠識(shí)別各種不同品種的貓,除了需要更多的照片之外,更需要人工對(duì)這些照片中的貓咪品種進(jìn)行分類標(biāo)注,再交給深度學(xué)習(xí)相關(guān)的演算法進(jìn)行訓(xùn)教,才能得到最終可應(yīng)用的模型。
訓(xùn)練是整個(gè)人工智能應(yīng)用里,最耗計(jì)算資源的工作步驟,所以通常通過繪圖處理器(GPU)擅長的平行運(yùn)算來進(jìn)行加速。尤其是現(xiàn)在最熱門、超過百層、復(fù)雜度極高的深度神經(jīng)網(wǎng)絡(luò),都會(huì)希望使用可針對(duì)大型矩陣運(yùn)算做平行處理的特殊計(jì)算芯片來加速訓(xùn)練過程。然而,人工智能的真實(shí)應(yīng)用往往發(fā)生在終端,無論是圖像、影像、語音識(shí)別或文本翻譯,通過深度學(xué)習(xí)所訓(xùn)練出來的模型如果放在云端,意味著每次應(yīng)用發(fā)生時(shí),終端必須先傳輸圖像、影像、語音或文本,等云端判讀后再將結(jié)果回傳。就算網(wǎng)絡(luò)頻寬再大、速度再快,這段傳輸與回傳過程都要占用資源,并造成反應(yīng)延遲。
所以能夠在終端接收實(shí)體資料,并快速預(yù)測(cè)回應(yīng)的過程稱為推論(Inference)。對(duì)推論來說,在終端應(yīng)用上減少那些對(duì)預(yù)測(cè)不必要的模型或是合并對(duì)結(jié)果無足輕重的運(yùn)算,來縮小計(jì)算規(guī)模是非常重要的。就算推論相對(duì)不消耗資源,但多數(shù)推論應(yīng)用仍需特殊計(jì)算芯片的加速來縮短反應(yīng)時(shí)間,也就是說,若終端要能進(jìn)行推論,每一臺(tái)裝置都將以芯片來加強(qiáng)能力。