計(jì)算機(jī)視覺(jué)技術(shù)必須完成什么基本任務(wù)
算機(jī)視覺(jué)識(shí)別這一人工智能基礎(chǔ)應(yīng)用技術(shù)部分已達(dá)商業(yè)化應(yīng)用水平,被用于身份識(shí)別、醫(yī)學(xué)輔助診斷、自動(dòng)駕駛等場(chǎng)景。一般來(lái)講,計(jì)算機(jī)視覺(jué)主要分為圖像分類、目標(biāo)檢測(cè)、目標(biāo)跟蹤和圖像分割四大基本任務(wù)。
圖像分類是指為輸入圖像分配類別標(biāo)簽。自 2012 年采用深度卷積網(wǎng)絡(luò)方法設(shè)計(jì)的 AlexNet 奪得 ImageNet 競(jìng)賽冠軍后,圖像分類開(kāi)始全面采用深度卷積網(wǎng)絡(luò)。
2015 年,微軟提出的 ResNet 采用殘差思想,將輸入中的一部分?jǐn)?shù)據(jù)不經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)而直接進(jìn)入到輸出中,解決了反向傳播時(shí)的梯度彌散問(wèn)題,從而使得網(wǎng)絡(luò)深度達(dá)到 152 層,將錯(cuò)誤率降低到 3.57%,遠(yuǎn)低于 5.1%的人眼識(shí)別錯(cuò)誤率,奪得了ImageNet 大賽的冠軍。2017 年提出的 DenseNet 采用密集連接的卷積神經(jīng)網(wǎng)絡(luò),降低了模型的大小,提高了計(jì)算效率,且具有非常好的抗過(guò)擬合性能。
目標(biāo)檢測(cè)指用框標(biāo)出物體的位置并給出物體的類別。2013 年加州大學(xué)伯克利分校的 Ross B. Girshick 提出 RCNN 算法之后,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)成為主流。之后的檢測(cè)算法主要分為兩類,一是基于區(qū)域建議的目標(biāo)檢測(cè)算法,通過(guò)提取候選區(qū)域,對(duì)相應(yīng)區(qū)域進(jìn)行以深度學(xué)習(xí)方法為主的分類,如 RCNN、Fast-RCNN、Faster-RCNN、SPP-net 和 Mask R-CNN 等系列方法。二是基于回歸的目標(biāo)檢測(cè)算法,如 YOLO、SSD 和 DenseBox 等。
目標(biāo)跟蹤指在視頻中對(duì)某一物體進(jìn)行連續(xù)標(biāo)識(shí)。基于深度學(xué)習(xí)的跟蹤方法,初期是通過(guò)把神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征直接應(yīng)用到相關(guān)濾波或 Struck 的跟蹤框架中,從而得到更好的跟蹤結(jié)果,但同時(shí)也帶來(lái)了計(jì)算量的增加。近提出了端到端的跟蹤框架,雖然與相關(guān)濾波等傳統(tǒng)方法相比在性能上還較慢,但是這種端到端輸出可以與其他的任務(wù)一起訓(xùn)練,特別是和檢測(cè)分類網(wǎng)絡(luò)相結(jié)合,在實(shí)際應(yīng)用中有著廣泛的前景。
圖像分割指將圖像細(xì)分為多個(gè)圖像子區(qū)域。2015 年開(kāi)始,以全卷積神經(jīng)網(wǎng)絡(luò)(FCN)為代表的一系列基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割方法相繼提出,不斷提高圖像語(yǔ)義分割精度,成為目前主流的圖像語(yǔ)義分割方法。