算機視覺識別這一人工智能基礎應用技術部分已達商業(yè)化應用水平,被用于身份識別、醫(yī)學輔助診斷、自動駕駛等場景。一般來講,計算機視覺主要分為圖像分類、目標檢測、目標跟蹤和圖像分割四大基本任務。
圖像分類是指為輸入圖像分配類別標簽。自 2012 年采用深度卷積網絡方法設計的 AlexNet 奪得 ImageNet 競賽冠軍后,圖像分類開始全面采用深度卷積網絡。
2015 年,微軟提出的 ResNet 采用殘差思想,將輸入中的一部分數據不經過神經網絡而直接進入到輸出中,解決了反向傳播時的梯度彌散問題,從而使得網絡深度達到 152 層,將錯誤率降低到 3.57%,遠低于 5.1%的人眼識別錯誤率,奪得了ImageNet 大賽的冠軍。2017 年提出的 DenseNet 采用密集連接的卷積神經網絡,降低了模型的大小,提高了計算效率,且具有非常好的抗過擬合性能。
目標檢測指用框標出物體的位置并給出物體的類別。2013 年加州大學伯克利分校的 Ross B. Girshick 提出 RCNN 算法之后,基于卷積神經網絡的目標檢測成為主流。之后的檢測算法主要分為兩類,一是基于區(qū)域建議的目標檢測算法,通過提取候選區(qū)域,對相應區(qū)域進行以深度學習方法為主的分類,如 RCNN、Fast-RCNN、Faster-RCNN、SPP-net 和 Mask R-CNN 等系列方法。二是基于回歸的目標檢測算法,如 YOLO、SSD 和 DenseBox 等。
目標跟蹤指在視頻中對某一物體進行連續(xù)標識?;谏疃葘W習的跟蹤方法,初期是通過把神經網絡學習到的特征直接應用到相關濾波或 Struck 的跟蹤框架中,從而得到更好的跟蹤結果,但同時也帶來了計算量的增加。近提出了端到端的跟蹤框架,雖然與相關濾波等傳統(tǒng)方法相比在性能上還較慢,但是這種端到端輸出可以與其他的任務一起訓練,特別是和檢測分類網絡相結合,在實際應用中有著廣泛的前景。
圖像分割指將圖像細分為多個圖像子區(qū)域。2015 年開始,以全卷積神經網絡(FCN)為代表的一系列基于卷積神經網絡的語義分割方法相繼提出,不斷提高圖像語義分割精度,成為目前主流的圖像語義分割方法。