當(dāng)前位置：首頁 > 芯聞號 > 充電吧

谷歌公布亞毫秒級人臉檢測算法人臉檢測又一突破

時間：2019-08-13 15:06:11

關(guān)鍵字：人臉檢測谷歌亞毫秒級

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]谷歌近日發(fā)布了一款專為移動 GPU 推理量身定制的輕量級人臉檢測器—;—;亞毫秒級的人臉檢測算法 Blaze Face。它能夠在旗艦設(shè)備上以 200~1000+ FPS 的速度運行，并且可以應(yīng)用在諸多

谷歌近日發(fā)布了一款專為移動 GPU 推理量身定制的輕量級人臉檢測器—;—;亞毫秒級的人臉檢測算法 Blaze Face。它能夠在旗艦設(shè)備上以 200~1000+ FPS 的速度運行，并且可以應(yīng)用在諸多需要快速準(zhǔn)確的識別出人臉區(qū)域的任務(wù)中，例如：2D/3D 面部關(guān)鍵點識別與幾何評估、面部特征和表情分類以及面部區(qū)域分割等。谷歌發(fā)表了相關(guān)論文介紹了該研究成果，雷鋒網(wǎng) AI 科技評論將其編譯如下。

BlazeFace 簡介

近年來，通過對深度神經(jīng)網(wǎng)絡(luò)中各種架構(gòu)的改進，我們已經(jīng)可以實現(xiàn)實時目標(biāo)檢測。在移動應(yīng)用程序中，實時目標(biāo)檢測通常是視頻處理流程中的第一步，接著是各種特定任務(wù)組件，例如分割，跟蹤或幾何推理。因此，目標(biāo)檢測模型推理必須盡可能快地運行，其性能最好能夠達到遠高于標(biāo)準(zhǔn)的實時基準(zhǔn)。

我們提出了一種名為 BlazeFace 的新面部檢測框架，該框架是在單鏡頭多盒檢測器（SSD）框架上針對移動 GPU 推理進行的優(yōu)化。我們的主要創(chuàng)新包括：

1、有關(guān)于推理速度

一個專為輕量級目標(biāo)檢測而設(shè)計的在結(jié)構(gòu)上與 MobileNetV1/V2 相關(guān)的非常緊湊的特征提取器卷積神經(jīng)網(wǎng)絡(luò)。

一種基于 SSD 的新型 GPU-friendly anchor 機制，旨在提高 GPU 利用率。Anchors（SSD 術(shù)語中的先驗）是預(yù)定義的靜態(tài)邊界框，作為網(wǎng)絡(luò)預(yù)測調(diào)整和確定預(yù)測粒度的基礎(chǔ)。

2、有關(guān)于推理效果

一種替代非最大抑制的聯(lián)合分辨率策略，可在多預(yù)測之間實現(xiàn)更穩(wěn)定、更平滑的聯(lián)系分辨率。

基于 AR 的人臉檢測

雖然該框架適用于各種目標(biāo)檢測任務(wù)，但在本文中，我們致力于探討手機相機取景器中的人臉檢測問題。由于不同的焦距和捕獲物體尺寸，我們分別為前置和后置攝像頭構(gòu)建了模型。

除了預(yù)測軸對齊的面部矩形外，BlazeFace 模型還生成了 6 個面部關(guān)鍵點坐標(biāo)（用于眼睛中心、耳、嘴中心和鼻尖），以便我們估計面部旋轉(zhuǎn)角度（滾動角度）。這樣的設(shè)置使其能夠?qū)⑿D(zhuǎn)的面部矩形傳遞到視頻處理流程的后期任務(wù)特定階段，從而減輕后續(xù)處理步驟對重要平移和旋轉(zhuǎn)不變性的要求。

模型結(jié)構(gòu)與設(shè)計

BlazeFace 模型架構(gòu)圍繞下面討論的四個重要設(shè)計考慮因素而構(gòu)建。

1、擴大感受野

雖然大多數(shù)現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)（包括 MobileNet，https://arxiv.org/pdf/1704.04861.pdf ）都傾向于在模型圖中都使用 3 x 3 卷積核，但我們注意到深度可分離卷積計算是由它們的點態(tài)部分主導(dǎo)。在 s×s×c 輸入張量上，應(yīng)用可分離卷積操作，其中，k×k 的深度卷積涉及 s^2ck^2 次乘加運算，而后續(xù)的 1×1 卷積到 d 個輸出通道由 s^2cd 次乘加運算組成，是深度階段的 d /（k^2）倍。

實際上，在具有金屬外殼的 Apple iPhone X 上，16 位浮點運算中的 3×3 深度卷積對于 56×56×128 的張量需要花費 0.07 ms，相比之下 128 到 128 通道的 1×1 卷積運算會慢 4.3 倍，即后續(xù)的點卷積操作需要 0.3 毫秒（由于固定成本和存儲器訪問因素導(dǎo)致的純算術(shù)運算計數(shù)差）。

該觀察表明增加深度部分的核尺寸性價比更高。我們在模型架構(gòu)中使用 5×5 內(nèi)核，這樣使得感受野達到指定大小所需的 bottleneck 數(shù)量大大減少，得到的 BlazeBlock 有下圖所示的兩種結(jié)構(gòu)：

圖 1 單個 BlazeBlock (左) 與雙 BlazeBlock （右）

2、特征提取器

對于具體的例子，我們專注于前置攝像頭模型的特征提取器。該特征提取器必須考慮較小范圍的目標(biāo)尺度，因此它具有較低的計算需求。提取器采用 128×128 像素的 RGB 輸入，包括一個 2D 卷積和 5 個單 BlazeBlock 和 6 個雙 BlazeBlock 組成，完整布局見下表。最大張量深度（通道分辨率）為 96，而最低空間分辨率為 8×8（與 SSD 相比，它將分辨率一直降低到 1×1）。

圖 2 BlazeFace 特征提取器的網(wǎng)絡(luò)結(jié)構(gòu)

3、Anchor 機制

類似 SSD 的目標(biāo)檢測模型依賴于預(yù)定義的固定大小的基礎(chǔ)邊界框，稱為先驗機制，或 Faster-R-CNN 術(shù)語中的錨點。為每個錨預(yù)測一組回歸（可能還包括分類）參數(shù)，例如中心偏移量和尺寸調(diào)整。它們用于將預(yù)定義的錨位置調(diào)整為緊密的邊界矩形。

通常的做法是根據(jù)目標(biāo)比例范圍在多個分辨率級別定義錨點，同時下采樣也是計算資源優(yōu)化的手段。典型的 SSD 模型使用 1×1,2×2,4×4,8×8 和 16×16 特征映射大小的預(yù)測。然而，金字塔池化網(wǎng)絡(luò) PPN 架構(gòu)（https://arxiv.org/pdf/1807.03284.pdf）的成功意味著在特征圖達到某個特征映射分辨率后，將產(chǎn)生大量額外的計算。

相比于 CPU 計算，GPU 獨有的關(guān)鍵特性是調(diào)度特定層計算會有一個顯著的固定成本，這對于流行的 CPU 定制架構(gòu)固有的深度低分辨率層而言非常重要。例如，在一個實驗中我們觀察到 MobileNetV1 推理時間需要 4.9 毫秒，而在實際 GPU 計算中花費 3.9 毫秒。

考慮到這一點，我們采用了另一種錨定方案，該方案停留在 8×8 特征圖尺寸處而無需進一步下采樣（圖 2）。我們已經(jīng)將 8×8,4×4 和 2×2 分辨率中的每個像素的 2 個錨點替換為 8×8 的 6 個錨點。由于人臉長寬比的變化有限，因此發(fā)現(xiàn)將錨固定為 1：1 縱橫比足以進行精確的面部檢測。

圖 3 錨點計算，SSD（左）與 BlazeFace（右）

4、后處理機制

由于我們的特征提取器未將分辨率降低到 8×8 以下，因此給定目標(biāo)重疊的錨點數(shù)量會隨目標(biāo)尺寸的增加而顯著增加。在典型的非最大抑制方案中，只有一個錨點被選中作為算法的輸出。這樣的模型應(yīng)用于后續(xù)視頻人臉預(yù)測時，預(yù)測結(jié)果將在不同錨之間波動并且在時間序列上檢測框上持續(xù)抖動（人類易感噪聲）。

為了最小化這種現(xiàn)象，我們用一種混合策略代替抑制算法，該策略以重疊預(yù)測之間的加權(quán)平均值估計邊界框的回歸參數(shù)，它幾乎不會產(chǎn)生給原來的 NMS 算法帶來額外成本。對于人臉檢測任務(wù)，此調(diào)整使準(zhǔn)確度提高 10％。

我們通過連續(xù)輸入目標(biāo)輕微偏移的圖像來量化抖動量，并觀察模型結(jié)果（受偏移量影響）如何受到影響。在聯(lián)合分辨率策略修改之后，抖動量（定義為原始輸入和移位輸入的預(yù)測之間的均方根差）在我們的前置攝像頭數(shù)據(jù)集上下降了 40％，在包含較小人臉的后置攝像頭數(shù)據(jù)集上下降了 30％。

實驗

我們在 66K 圖像的數(shù)據(jù)集上訓(xùn)練我們的模型。為了評估實驗結(jié)果，我們使用了由 2K 圖像組成的地理位置多樣數(shù)據(jù)集。

對于前置攝像頭模型，它只考慮占據(jù)圖像區(qū)域的 20％以上的面部，這是由預(yù)期的用例決定的（后置攝像頭型號的閾值為 5％）。

回歸參數(shù)誤差采用眼間距離（IOD）進行尺度不變性歸一化，中值絕對誤差為 IOD 的 7.4％。通過上述程序評估的抖動度量是 IOD 的 3％。

圖 4 顯示了所提出的正面人臉檢測網(wǎng)絡(luò)的平均精度（AP）度量（標(biāo)準(zhǔn) 0.5 交叉聯(lián)合邊界框匹配閾值）和移動 GPU 推理時間，并將其與基于 MobileNetV2 的目標(biāo)檢測器（MobileNetV2-SSD）進行了比較。我們在 16 位浮點模式下使用 TensorFlow Lite GPU 作為推理時間評估的框架。

圖 4 前置相機人臉檢測性能

圖 5 給出了更多旗艦設(shè)備上兩種網(wǎng)絡(luò)模型的 GPU 推理速度的透視圖：

圖 5 跨多個移動設(shè)備的推理速度

圖 6 展示了由于模型尺寸較小引起的回歸參數(shù)預(yù)測質(zhì)量的退化程度。如下一節(jié)所述，這不一定會導(dǎo)致整個 AR 管道質(zhì)量的成比例降低。

圖 6 回歸參數(shù)預(yù)測質(zhì)量

應(yīng)用

上述模型可以在完整圖像或視頻幀上運行，并且可以作為幾乎任何與人臉相關(guān)的計算機視覺應(yīng)用的第一步，例如 2D / 3D 人臉關(guān)鍵點、輪廓或表面幾何估計、面部特征或表情分類以及人臉區(qū)域分割。因此，計算機視覺流程中的后續(xù)任務(wù)可以根據(jù)適當(dāng)?shù)拿娌考舨脕矶x。結(jié)合 BlazeFace 提供的少量面部關(guān)鍵點估計，此結(jié)果也可以旋轉(zhuǎn)，這樣圖像中的面部是居中的、標(biāo)準(zhǔn)化的并且滾動角接近于零。這消除了 SIG-nifi 不能平移和旋轉(zhuǎn)不變性的要求，從而允許模型實現(xiàn)更好的計算資源分配。

我們通過一個具體的人臉輪廓估計示例來說明這種方法。在圖 7 中，我們展示了 BlazeFace 的輸出，即預(yù)測的邊界框和面部的 6 個關(guān)鍵點（紅色）如何通過一個更復(fù)雜的人臉輪廓估計模型來進一步細化，并將其應(yīng)用于擴展的結(jié)果。

圖 7 流程示例；紅色代表 BlazeFace 輸出；綠色代表任務(wù)特定的模型輸出

詳細的關(guān)鍵點可以產(chǎn)生更精細的邊界框估計（綠色），并在不運行人臉檢測器的情況下重新用于后續(xù)幀中的跟蹤。為了檢測該計算節(jié)省策略的故障，該模型還可以檢測面部是否存在所提供的矩形裁剪中合理地對齊。每當(dāng)違反該條件時，BlazeFace 人臉檢測器將再次在整個視頻幀上運行。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動 BSP

[美通社全球TMT]

從容應(yīng)對未知風(fēng)險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務(wù)公布2024年中期業(yè)績

要點：有效應(yīng)對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質(zhì)增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競爭力堅持高質(zhì)量發(fā)展策略，塑強核心競爭優(yōu)勢...

關(guān)鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]