不同 AI 跑分軟件芯片跑分結(jié)果為何南轅北轍?外媒長(zhǎng)文深度揭秘
7月9日消息 這兩年來(lái),智能手機(jī)的體驗(yàn)是越來(lái)越全面和出色,很大一部分原因,是依賴于 AI 人工智能技術(shù)的成熟和普及,比如離線翻譯、圖片識(shí)別、文字提取、智能提醒等等功能幾乎成為了每一臺(tái)智能手機(jī)的標(biāo)配,現(xiàn)如今智能手機(jī)的功能已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)我們 10 年前對(duì)手機(jī)的定義。
技術(shù)的進(jìn)步,潛移默化地改變了我們的生活方式,特別當(dāng) 5G 真正普及到智能手機(jī)終端時(shí),AI 強(qiáng)大的智慧處理能力將發(fā)揮出巨大的能量,也正因此,AI 不僅成為各大手機(jī)廠商們炙手可熱的宣傳概念,更是被廣大消費(fèi)者所熟知和接受,成為購(gòu)買(mǎi)一臺(tái)手機(jī)的重要影響因素。
和處理器性能一樣,消費(fèi)者們了解一款手機(jī)的 AI 性能和算力,最直觀的方式是通過(guò)跑分應(yīng)用測(cè)試獲得,針對(duì) AI 跑分,目前市面上較為熟知的應(yīng)用有三款,分別是安兔兔的 AI 跑分、AIMark(魯大師)和蘇黎世 AI 跑分應(yīng)用 ETH AI Benchmark,其中 ETH AI Benchmark 還分為 V3 和 V4 版本,不少細(xì)心的小伙伴會(huì)發(fā)現(xiàn),盡管都是同樣的 AI 跑分應(yīng)用,但針對(duì)不同處理器(比如同為旗艦的驍龍 865 和麒麟 990),跑分的成績(jī)還各不相同,在 ETH AI Benchmark 中,麒麟 990 的跑分占更大優(yōu)勢(shì),但是在安兔兔和 AIMark 中,搭載驍龍 865 手機(jī)的 AI 跑分明顯要更高,那么這又是怎么回事呢?
外媒 Hothardware 近日就撰寫(xiě)了一篇名為的文章,深度解析了手機(jī)的 AI 跑分以及如何衡量 AI 和機(jī)器學(xué)習(xí)性能,我們具體來(lái)看。
在介紹 AI 以及 ML(機(jī)器學(xué)習(xí))之前,要先了解到神經(jīng)網(wǎng)絡(luò)(NN)這個(gè)概念,因?yàn)檫@是 ML 和 AI 在訓(xùn)練和推理過(guò)程中不可或缺的部分。神經(jīng)網(wǎng)絡(luò)是受人類大腦活動(dòng)啟發(fā)的算法模型,通常需要基于大量數(shù)據(jù)進(jìn)行訓(xùn)練,通過(guò)對(duì)數(shù)據(jù)的多層篩選,從而確定數(shù)據(jù)中的特定屬性。
舉一個(gè)通俗易懂的例子,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和學(xué)習(xí)過(guò)程,有點(diǎn)類似我們幼年時(shí)期開(kāi)始認(rèn)識(shí)萬(wàn)物的過(guò)程——比如說(shuō),貓和狗都有兩只耳朵,那么如何判別眼前的是貓還是狗,需要我們不斷的去認(rèn)識(shí)新的貓和狗,在這個(gè)辨別的過(guò)程中,我們會(huì)記住貓除了兩只耳朵之外的更多屬性,比如可以收縮的瞳孔、喵喵的叫聲、細(xì)長(zhǎng)的尾巴等等,通過(guò)這些信息,我們可以判斷所看到的是貓還是狗。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理也是一樣,人類向 AI 系統(tǒng)提供大量的訓(xùn)練數(shù)據(jù),判斷某個(gè)數(shù)據(jù)片段是否滿足特定的標(biāo)準(zhǔn),實(shí)現(xiàn)自我 “推理”能力,最終為用戶提供智能化結(jié)果。
當(dāng)然,AI 和 ML 的背后遠(yuǎn)不止上述這些,在這里只是為大家做一個(gè)簡(jiǎn)單的介紹,更深一層技術(shù)在這里就不具體探究了。
Hothardware 在文章中指出,ML 和 AI 應(yīng)用正在飛速發(fā)展,伴隨運(yùn)行應(yīng)用的框架、硬件和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的不斷演進(jìn),大多數(shù)人可能難以判斷哪些解決方案最適合特定的用例或應(yīng)用。訓(xùn)練和推理過(guò)程對(duì)于計(jì)算能力有著極其不同的要求,充分滿足運(yùn)行特定應(yīng)用所需的準(zhǔn)確率可能需要一些專業(yè)數(shù)學(xué)或精確度。
目前,許多跑分工具所用的常見(jiàn)神經(jīng)網(wǎng)絡(luò)包括面向圖像分類的 ResNet-34 和 Inception-V3、面向單一目標(biāo)檢測(cè)和移動(dòng)視覺(jué)的 Mobilenet-SSD,以及面向圖像語(yǔ)義分割的 Google DeepLab-v3 等。
現(xiàn)有的 AI 跑分往往彼此大相徑庭,是因?yàn)?,絕大多數(shù)手機(jī) AI 跑分對(duì)整數(shù) / 浮點(diǎn)性能的重視程度和賦予權(quán)重的方式不同。
這里要簡(jiǎn)單介紹一下 AI 計(jì)算中的兩個(gè)重要關(guān)鍵詞——FP16(半精度浮點(diǎn)數(shù))和 INT8(定點(diǎn)計(jì)算方式)。
FP16 和 INT8 同為端側(cè) AI 計(jì)算深度學(xué)習(xí)模型中的常用數(shù)據(jù)格式,客觀的講,F(xiàn)P16 和 INT8 并沒(méi)有完全的優(yōu)劣之分,更多的是在不同場(chǎng)景下有不同的需求,針對(duì)不同的 AI 應(yīng)用有各自不同的優(yōu)勢(shì)。
FP16 提供更高精度,比如在一些高精度圖像處理的場(chǎng)景上,F(xiàn)P16 可實(shí)現(xiàn)更高精度的 “摳圖”,但高精度相應(yīng)的功耗也高了不少,醫(yī)療和其他對(duì)精準(zhǔn)度要求較高的行業(yè)可能需要 FP16。
相比與 FP16,INT8 精度略低,但功耗更低,數(shù)據(jù)量小,計(jì)算速度也更快,具備能效優(yōu)勢(shì),因此更適合移動(dòng)終端,INT8 在移動(dòng)應(yīng)用中也最為常用。
以三款跑分 App 為例,魯大師的 AIMark 采用了高通的平臺(tái)軟件開(kāi)發(fā)包高通神經(jīng)網(wǎng)絡(luò)處理引擎 SDK,AImark 主要利用 AI 計(jì)算中 INT8 定點(diǎn)的神經(jīng)網(wǎng)絡(luò)模型來(lái)確定 SoC / 移動(dòng)終端的 AI 性能,在一些實(shí)際場(chǎng)景中使用 AI 模型,INT8 應(yīng)用更加廣泛。在 AIMark 跑分中,高通驍龍 865 移動(dòng)平臺(tái)脫穎而出,865 配備了比前代平臺(tái)更強(qiáng)大的第五代高通人工智能引擎 AI Engine。
安兔兔和魯大師 AIMark 類似,可能也采用某個(gè)版本的高通神經(jīng)網(wǎng)絡(luò)處理引擎 SDK,因此跑分結(jié)果顯示高通驍龍 865 的終端表現(xiàn)比其他移動(dòng)平臺(tái)出色得多。
在 ETH AI Benchmark 應(yīng)用中,v3 版本的情況完全不同于前面運(yùn)行的兩個(gè)跑分應(yīng)用,ETH AI Benchmark 采用 TensorFlow Lite(TFLite)和 Android 神經(jīng)網(wǎng)絡(luò) API(NNAPI),使用這兩套標(biāo)準(zhǔn)接口而非廠商自研的 SDK,此外 v3 版跑分特別重視浮點(diǎn)性能,該版本跑分中浮點(diǎn)運(yùn)算的權(quán)重很高,同時(shí),麒麟 990 有對(duì)浮點(diǎn)(FP)運(yùn)算進(jìn)行優(yōu)化的專用 AI 處理器,因此麒麟 990 的得分遙遙領(lǐng)先。文章中,Hothardware 認(rèn)為,ETH AI Benchmark v3 的結(jié)果似乎不太平衡,在 ETH AI Benchmark v4 測(cè)試結(jié)果中,雖然總體趨勢(shì)未變,但麒麟 990 勝出的分值大幅降低。
在外媒測(cè)試的三個(gè)跑分程序中 INT8 定點(diǎn)和 FP16 浮點(diǎn)性能差別十分明顯,AIMark 和安兔兔 AI 跑分的成績(jī)很大程度上取決于 INT8 性能,而 ETH AI Benchmark 更重視 FP16,這就可以很好的解釋,為什么不同平臺(tái)之間的 AI 跑分成績(jī)各不相同——芯片平臺(tái)之間 AI 計(jì)算的方式側(cè)重點(diǎn)是不同的。Hothardware 認(rèn)為,INT8 和 FP16 并無(wú)優(yōu)劣之分,但I(xiàn)NT8 通常能效比更好,其 AI 模型效率和精度也在不斷提升,更適合手機(jī)這類移動(dòng)終端,保持長(zhǎng)續(xù)航。
當(dāng)然,對(duì)于消費(fèi)者而言,AI 的跑分高低并不能代表最終落實(shí)到消費(fèi)者親身的體驗(yàn),我們更追求更高跑分,但在跑分之外,真實(shí)使用場(chǎng)景下的 AI 應(yīng)用體驗(yàn)提升才是最重要的。