從數(shù)據(jù)中心到物聯(lián)網(wǎng)設(shè)備,人工智能計算的持續(xù)發(fā)展(4)
人工智能還處于起步階段。因此,圖本身,算法,都在不斷發(fā)展。然后,正如我們在本次對話的早期所討論的那樣,應(yīng)用程序正在發(fā)生變化。因此,部分應(yīng)用程序正在驅(qū)動,嗯,我無法在這個應(yīng)用程序中使用 AI 來實現(xiàn)這一點。所以我們必須研究一種可以實現(xiàn)它的不同類型的網(wǎng)絡(luò)。所以事情確實在不斷發(fā)展。
大約七八年前,卷積神經(jīng)網(wǎng)絡(luò)——這是你聽到的最常見的一種;它是最常用于分析視覺圖像的一類神經(jīng)網(wǎng)絡(luò),對吧?例如,視覺系統(tǒng)。就在幾年前,實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的各種方法在分類和識別物體和圖像方面擊敗了人類。一旦發(fā)生這種情況,事情就開始了。
然后你確實有像 DNN 這樣的東西,它實際上只是很多很多層的深層卷積神經(jīng)網(wǎng)絡(luò)。所以它是卷積神經(jīng)網(wǎng)絡(luò)的一種形式。然后隨著這些用例的發(fā)展,您確實擁有專門為解決這些用例而開發(fā)的神經(jīng)網(wǎng)絡(luò)。
讓我給你舉個例子。所以RNN,全稱Recurrent Neural Networks,是一類特別擅長自然語言處理的神經(jīng)網(wǎng)絡(luò)。因為,正如我所提到的,神經(jīng)網(wǎng)絡(luò)需要時間,需要時間元素來處理句子。
因此,如果某些內(nèi)容帶有圖像,您只需瀏覽數(shù)據(jù)集,然后匹配圖像。但是,如果有一個序列——如果我說一個詞,但你還必須等待三四個詞才能解釋我在說什么,例如,特別是如果我在句子中移動單詞相對于如何其他人可能會說話——那么你需要一個神經(jīng)網(wǎng)絡(luò),它有一個組件,它可以識別時間,然后將事物縫合在一起。這就是 RNN 的優(yōu)勢所在。并且有幾類 RNN。
變形金剛是一個新的,一個相對較新的。這是一個深度學(xué)習(xí)模型,可以捕捉可能相距甚遠的關(guān)系和單詞序列。所以正如我之前所說的,能夠處理順序數(shù)據(jù)是一回事,即使有時間元素。但是如果這些單詞被許多其他單詞甚至句子分隔,能夠理解它們,那只是自然語言處理的關(guān)鍵,因為我們都以不同的方式說話:不同的口音,我們使用不同的措辭。就像名字所暗示的那樣,自然語言的這些元素需要在神經(jīng)網(wǎng)絡(luò)中處理。而 Transformers 是最近發(fā)展的另一個例子,專門用于處理自然語言處理類型的工作負載。
因此,根據(jù)應(yīng)用程序,您可能會選擇不同類別的神經(jīng)網(wǎng)絡(luò)來完成您想要完成的任務(wù)。
所以當(dāng)你提高分辨率時,你會得到幾何上更大的數(shù)據(jù)集。這成為一個問題。因為現(xiàn)在,例如,如果您對由數(shù)千張 8K 圖像而不是數(shù)千張 4K 圖像組成的數(shù)據(jù)集進行圖像分類,那么現(xiàn)在您的神經(jīng)網(wǎng)絡(luò)需要更長的訓(xùn)練時間。順便說一句,這通常是在云中完成的。然后推理——基本上是通常在設(shè)備上完成的決策或?qū)嶋H結(jié)果,而不是在訓(xùn)練期間——現(xiàn)在正在這些更大的數(shù)據(jù)集上完成。因此實現(xiàn)推理需要更長的時間。
所以有各種各樣的技術(shù)被應(yīng)用到圖表本身,這樣他們就不會因為生活在邊緣而變得笨拙。他們都是關(guān)于真正嘗試壓縮圖的大小,以便它們可以生活在邊緣設(shè)備的內(nèi)存限制內(nèi)。有一些技術(shù)稱為修剪,這是一種優(yōu)化技術(shù)。它的目的基本上是從模型中刪除多余的或可能非常少的重要信息。所以你可以想象,如果你正在拍攝一張 8K 圖像,那張圖像中會有一大堆不相關(guān)的信息,或者重復(fù)了很多次。例如,背景中的灰色天空。
這就是視頻壓縮的本質(zhì),對吧?
正確。但是,當(dāng)涉及到 AI 模型本身時,他們還必須考慮到,為了將訓(xùn)練數(shù)據(jù)集與他們所看到的內(nèi)容進行匹配,他們需要知道該圖像中重要內(nèi)容之間的區(qū)別。所以這不僅僅是壓縮圖像大小的問題。但是,當(dāng)模型查看并嘗試將新圖像與數(shù)據(jù)集相關(guān)聯(lián)時,無論圖像大小如何壓縮,它們都必須確定該圖像的哪一部分是重要的。
例如,有一種稱為稀疏性的技術(shù)。這指的是,如果你考慮一個矩陣,一個神經(jīng)網(wǎng)絡(luò)主要是在做很多矩陣運算。矩陣中有很多零值實際上并沒有提高準(zhǔn)確性。因為它旁邊的神經(jīng)元是完全相同的值。因此,有一些技術(shù)可以將稀疏性應(yīng)用于模型,以便模型可以更小,而不會損失很多準(zhǔn)確性。因此,從功率和面積的角度來看,它可以存在于更多受限的設(shè)備中。因此,軟件部分中發(fā)生了一些事情,以確保圖形本身對于受限設(shè)備是可管理的。