人工智能一定需要大數(shù)據(jù)嗎
因為,任何數(shù)據(jù)積累到一定程度,都會變成一個結(jié)果:數(shù)據(jù)量巨大。嗯,很多年前IT業(yè)內(nèi)曾經(jīng)批評我十六年前的老公司沒有大數(shù)據(jù),有的只是數(shù)據(jù)量巨大,具體是哪家公司我就不多說了。
大數(shù)據(jù)到底是什么,這里不想多說,寫過的人太多,青潤這里只能說一句話:數(shù)據(jù)量大到一定程度的,并且經(jīng)過格式化規(guī)范化處理后可以用于分析、挖掘和各種計算使用的數(shù)據(jù)就是大數(shù)據(jù)。
那,結(jié)果呢,人工智能積累的數(shù)據(jù)需要幾個方面,我們用其中目前接觸相對較多的識別技術(shù)來講述一下會比較合適,了解青潤的人都知道,青潤再2005年第二次進(jìn)入中科院做的就是人臉識別和行為分析方面的研究和產(chǎn)品。
識別,就需要考慮到下面幾點:
1、樣本數(shù)據(jù)的采集;
2、樣本數(shù)據(jù)的標(biāo)定;
3、樣本數(shù)據(jù)的自我檢驗;
4、基于樣本數(shù)據(jù)的模型構(gòu)建;
5、構(gòu)建樣本的特征碼庫;
識別過程是這樣的:
6、進(jìn)行目標(biāo)數(shù)據(jù)采集;
7、基于模型構(gòu)建獲取的特征提取算法進(jìn)行特征提取;
8、進(jìn)行目標(biāo)特征碼和樣本特征碼的對比,并根據(jù)對比的異或數(shù)據(jù)得到結(jié)果;
于是基本的過程結(jié)束了,下面是增值和演進(jìn)過程:
9、采集新的數(shù)據(jù),并進(jìn)行同樣模型的特征提取,然后進(jìn)行特征對比,獲得識別結(jié)果。
10、 隨著時間的演變,每一個被檢驗?zāi)繕?biāo)都會發(fā)生變化,人會從小孩變成成人然后變成老人,各種材料會衰變老化(比如一些重要設(shè)備的重要部件在發(fā)生重大事故時要檢測是不是原來的部件,是不是因為老化造成的,是不是被人為破損或者替換了的時候都需要這個),這時候,就產(chǎn)生了一種模型的演進(jìn)算法,也可以稱之為疲勞算法。
11、 而為了確保目標(biāo)的有效性,還有一種活體檢測技術(shù)也隨之而產(chǎn)生了,現(xiàn)在看到的各銀行和支付寶等做的讓你眨眨眼,扭扭頭,張張嘴的動作,就是為了活體檢測,但是,這其實是外行在做的活體檢測技術(shù)。2005年以前的人臉識別研究人員都知道,用眼球的反光點作為活體檢測是最有效的,而且是最不容易被破解的,或者說是無法破解的,而目前這些轉(zhuǎn)頭之類的動作只需要一張硅膠皮就可以被輕松破解掉。
隨著數(shù)據(jù)獲取的越來越多,原本的機(jī)器學(xué)習(xí)算法演進(jìn)成了深度學(xué)習(xí)算法的過程,于是上面的流程也得到了改變,改變后的結(jié)果基本上都是這樣的:
1、樣本數(shù)據(jù)的采集;
2、樣本數(shù)據(jù)的標(biāo)定,第二次循環(huán)到這里時將采用自動標(biāo)定,根據(jù)計算的驗證結(jié)果改進(jìn)標(biāo)定算法;
3、樣本數(shù)據(jù)的自我檢驗;
4、基于樣本數(shù)據(jù)的模型構(gòu)建;
5、構(gòu)建樣本的特征碼庫;
6、自動抓取獲得網(wǎng)絡(luò)上的各種數(shù)據(jù)源樣本,或者基于自己的推演得到新的數(shù)據(jù)樣本,并基于數(shù)據(jù)源的數(shù)據(jù)完成新的模型采集過程,然后不斷自己重復(fù)上面2-6的過程;
識別過程是這樣的:
7、進(jìn)行目標(biāo)數(shù)據(jù)采集;
8、基于模型構(gòu)建獲取的特征提取算法進(jìn)行特征提?。?/p>
9、進(jìn)行目標(biāo)特征碼和樣本特征碼的對比,并根據(jù)對比的異或數(shù)據(jù)得到結(jié)果;
于是基本的過程結(jié)束了,而很多新入行的所謂模式識別程序員不了解過去對目標(biāo)特征的驗證技術(shù),于是只能考慮看上去似乎更為簡單的活體驗證手段或者他們自認(rèn)為更好的演進(jìn)手段,于是形成了下面的方式:
10、 采集新的數(shù)據(jù),并進(jìn)行同樣模型的特征提取,然后進(jìn)行特征對比,獲得識別結(jié)果。
11、 而大部分公司其實不懂得需要設(shè)計疲勞算法,因為他們的數(shù)據(jù)太新,還沒有到需要考慮疲勞衰變問題的階段,這對于他們來說,都是未來模型需要被再次重建的必然,同樣較好的疲勞算法也是無法從opencv上直接獲得的,這也在一定程度上證明了,他們還沒有到大數(shù)據(jù)的層面,僅僅是單一層面的數(shù)據(jù)量巨大而已;
12、 而為了確保目標(biāo)的有效性,還有一種活體檢測技術(shù)也隨之而產(chǎn)生了,現(xiàn)在看到的各銀行和支付寶等做的讓你眨眨眼,扭扭頭,張張嘴的動作,就是為了活體檢測;
13、 11-12的過程采用了更多的手工標(biāo)定,因為他們不知道如何設(shè)計出更好的機(jī)器標(biāo)定算法,或者說,最好的標(biāo)定算法他們無法從opencv上獲得,只能采用這種原始的手工標(biāo)定方式。
據(jù)青潤得到的信息,某個某年剛剛拿到十多億美元的某人工智能公司,某一段時間內(nèi)的人工標(biāo)定費(fèi)用是以千萬投入來計算的,具體是哪家公司就不方便明說了。
隨著深度學(xué)習(xí)的應(yīng)用,數(shù)據(jù)量越大,就越不是負(fù)擔(dān),而是精度更高的算法模型的實現(xiàn)過程,因此,大數(shù)據(jù)已經(jīng)成為人工智能的必然導(dǎo)向結(jié)果,而且大數(shù)據(jù)的有效數(shù)據(jù)總量越大,就意味著結(jié)果的精度越高。
當(dāng)然,這種結(jié)果精度越高的有效數(shù)據(jù)總量,一定是有一定衡量方式的,絕不是什么數(shù)據(jù)拿過來都可以用的,這一點必須區(qū)分,很多公司為了盲目吹自己是大數(shù)據(jù)而不加區(qū)分的片面強(qiáng)調(diào)自己的數(shù)據(jù)量巨大,這是不對的,也是一種錯誤的導(dǎo)向方式,換句話說,除了蹭熱點,并沒有其他任何價值,這也是需要技術(shù)人員也包括投資機(jī)構(gòu)應(yīng)該看明白的地方。