數(shù)據(jù)對(duì)于人工智能來(lái)說(shuō)有多重要
人工智能的目標(biāo)是讓機(jī)器像人類一樣學(xué)會(huì)學(xué)習(xí)。算法訓(xùn)練、深度學(xué)習(xí)等都需要大量數(shù)據(jù)支持,數(shù)據(jù)挖掘是人工智能做訓(xùn)練樣本的前提條件。如無(wú)人車需要大量的試車數(shù)據(jù)不斷地測(cè)試算法,并在業(yè)務(wù)場(chǎng)景上形成自我改進(jìn)的反饋系統(tǒng)。可見(jiàn)如果沒(méi)有數(shù)據(jù)的場(chǎng)景不可能實(shí)現(xiàn)人工智能,數(shù)據(jù)就是人工智能的引爆點(diǎn)。
基于深度學(xué)習(xí)的人工智能技術(shù),核心在于通過(guò)計(jì)算找尋數(shù)據(jù)中的規(guī)律,運(yùn)用該規(guī)律對(duì)具體任務(wù)進(jìn)行預(yù)測(cè)和決斷。源數(shù)據(jù)需要進(jìn)行采集、標(biāo)注等處理后才能夠使用,標(biāo)注的數(shù)據(jù)形成相應(yīng)數(shù)據(jù)集。業(yè)務(wù)類型主要包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)以及數(shù)據(jù)交易等環(huán)節(jié)。 當(dāng)前,人工智能數(shù)據(jù)集的參與主體主要有以下幾類:
一是學(xué)術(shù)機(jī)構(gòu),為開展相關(guān)研究工作,自行采集、標(biāo)注,并建設(shè)學(xué)術(shù)數(shù)據(jù)集。這類數(shù)據(jù)集以 ImageNet 為代表,主要用于算法的創(chuàng)新性驗(yàn)證、學(xué)術(shù)競(jìng)賽等,但其迭代速度較慢,難用于實(shí)際應(yīng)用場(chǎng)景。
二是政府,等中立機(jī)構(gòu),他們以公益形式開放的公共數(shù)據(jù),主要包括政府、銀行機(jī)構(gòu)等行業(yè)數(shù)據(jù)及經(jīng)濟(jì)運(yùn)行數(shù)據(jù)等,數(shù)據(jù)標(biāo)注一般由使用數(shù)據(jù)的機(jī)構(gòu)完成。
三是人工智能企業(yè),他們?yōu)殚_展業(yè)務(wù)而自行建設(shè)數(shù)據(jù)集,企業(yè)一般自行采集,標(biāo)注形成自用數(shù)據(jù)集,或采購(gòu)專業(yè)數(shù)據(jù)公司提供的數(shù)據(jù)外包服務(wù)。四是數(shù)據(jù)處理外包服務(wù)公司,這類公司業(yè)務(wù)包括出售現(xiàn)成數(shù)據(jù)訓(xùn)練集的使用授權(quán),或根據(jù)用戶的具體需求提供數(shù)據(jù)處理服務(wù)(用戶提供原始數(shù)據(jù)、企業(yè)對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)寫、標(biāo)注),具體業(yè)務(wù)服務(wù)形式包括且不限于提供數(shù)據(jù)庫(kù)資源、提供數(shù)據(jù)采集服務(wù),提供數(shù)據(jù)轉(zhuǎn)寫標(biāo)注服務(wù)等。
當(dāng)前,人工智能基礎(chǔ)數(shù)據(jù)類型主要包括語(yǔ)音語(yǔ)言類(包括聲音、文字、語(yǔ)言學(xué)規(guī)則)、圖像識(shí)別類(包括自然物體、自然環(huán)境、人造物體、生物特征等)以及視頻識(shí)別類三個(gè)大類,從世界范圍來(lái)看,數(shù)據(jù)服務(wù)商總部主要分布在美國(guó)、歐洲等發(fā)達(dá)國(guó)家。但其數(shù)據(jù)處理人員則大多數(shù)分布在第三世界國(guó)家;我國(guó)語(yǔ)音、圖像類資源企業(yè)機(jī)構(gòu)正處于快速發(fā)展階段,為產(chǎn)業(yè)發(fā)展增添了動(dòng)力。