大數(shù)據(jù)與人工智能密不可分 大數(shù)據(jù)的發(fā)展離不開人工智能的助力
掃描二維碼
隨時(shí)隨地手機(jī)看文章
關(guān)于數(shù)據(jù)
這些年人類生產(chǎn)的數(shù)據(jù)呈爆發(fā)式增長(zhǎng),從十幾年前移動(dòng)智能設(shè)備的興起,到如今人們身上穿戴的各種傳感器設(shè)備,都在24小時(shí)不斷產(chǎn)生大量數(shù)據(jù)。這些數(shù)據(jù)包括文本、語音、圖像、視頻等等。
大數(shù)據(jù)
大數(shù)據(jù)這個(gè)詞最早出現(xiàn)在20世紀(jì)90年代,當(dāng)時(shí)只是用來描述數(shù)據(jù)量很大,但并沒有給出明確的定義和概念意思。出現(xiàn)后沒有受到多少人的關(guān)注,直到2012年后大數(shù)據(jù)得到了各行各業(yè)的關(guān)注重視,很多學(xué)科和行業(yè)都會(huì)涉及大數(shù)據(jù),大數(shù)據(jù)一時(shí)風(fēng)光無兩。
在技術(shù)方面,大數(shù)據(jù)包含的數(shù)據(jù)量一般都超出了單臺(tái)計(jì)算機(jī)的內(nèi)存容量,甚至大成百上千倍,所以在技術(shù)上就必須要有專門處理海量數(shù)據(jù)的工具。谷歌提出的MapReduc可以說是這方面的開山之作,以至于后來有了開源的Hadoop,屬于經(jīng)典的大數(shù)據(jù)處理工具。
大數(shù)據(jù)最早在大型互聯(lián)網(wǎng)和電商領(lǐng)域公司發(fā)展起來,2008年左右,這些公司收集到的數(shù)據(jù)大到傳統(tǒng)技術(shù)手段已經(jīng)無法處理,很難滿足業(yè)務(wù)的發(fā)展,于是大數(shù)據(jù)相關(guān)的理念和技術(shù)被相繼提出來。2010年隨著Web2.0的到來以及智能終端的普及,產(chǎn)生的數(shù)據(jù)量更進(jìn)一步猛增,此時(shí)大數(shù)據(jù)已經(jīng)融入人類社會(huì)生活。2012年大數(shù)據(jù)成為全球最熱門領(lǐng)域之一,國內(nèi)外很多公司都提出大數(shù)據(jù)相關(guān)戰(zhàn)略。2015年大數(shù)據(jù)正式進(jìn)入國家發(fā)展戰(zhàn)略,此后一直發(fā)展快速。
大數(shù)據(jù)
大數(shù)據(jù)的核心工作就是預(yù)測(cè),通過數(shù)學(xué)模型算法與海量數(shù)據(jù)從而達(dá)到預(yù)測(cè)事務(wù)發(fā)生的可能性。
大數(shù)據(jù)特征
大容量,數(shù)據(jù)量超級(jí)大。
多種類,數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
真實(shí)性,大數(shù)據(jù)應(yīng)具有真實(shí)性,否則沒有價(jià)值。
時(shí)效性,大數(shù)據(jù)一般具有時(shí)效性。
數(shù)據(jù)工程
當(dāng)我們收集到數(shù)據(jù)后為了能產(chǎn)生業(yè)務(wù)收益,我們會(huì)以工程化角度進(jìn)行數(shù)據(jù)處理、分析得到有價(jià)值的信息,這個(gè)過程就是數(shù)據(jù)工程。數(shù)據(jù)工程一般流程為:
數(shù)據(jù)獲取,從不同數(shù)據(jù)源收集數(shù)據(jù)獲取數(shù)據(jù)到統(tǒng)一裝置中。
數(shù)據(jù)存儲(chǔ),借助存儲(chǔ)介質(zhì)將收集到的數(shù)據(jù)持久化保存,比如硬盤。
數(shù)據(jù)清洗,將不符合規(guī)范的數(shù)據(jù)進(jìn)行特定處理,使得數(shù)據(jù)達(dá)到準(zhǔn)確完整一致等要求。
數(shù)據(jù)建模,定義滿足業(yè)務(wù)所需要的數(shù)據(jù)要求的過程,一般需要業(yè)務(wù)建模師參與。
數(shù)據(jù)處理,對(duì)數(shù)據(jù)的采集、存儲(chǔ)、檢索、加工、變換、傳輸?shù)炔僮?,從海量?shù)據(jù)中抽取提取有價(jià)值的數(shù)據(jù)。
數(shù)據(jù)分析,使用數(shù)據(jù)挖掘技術(shù)從海量數(shù)據(jù)中獲取有價(jià)值的信息。
數(shù)據(jù)可視化,將數(shù)據(jù)以直觀的可視化方式展示給用戶。
人工智能
1956年人工智能在達(dá)特茅斯正式被提出,它研究的事如何制造智能機(jī)器或模擬人類智能行為。人工智能學(xué)科介紹和發(fā)展可以參考前面的《一文了解人工智能——學(xué)科介紹、發(fā)展史、三大學(xué)派》文章。
AI主要領(lǐng)域
模式識(shí)別,通過計(jì)算機(jī)對(duì)數(shù)據(jù)樣本進(jìn)行特征提取從而學(xué)習(xí)到模型,然后根據(jù)模型進(jìn)行判別。
機(jī)器學(xué)習(xí),讓機(jī)器具有學(xué)習(xí)的能力,使機(jī)器具有智能,涉及認(rèn)知科學(xué)、神經(jīng)心理學(xué)、邏輯學(xué)等。
機(jī)器翻譯,通過計(jì)算機(jī)將某種自然語言轉(zhuǎn)換成另一種自然語言,它是計(jì)算語言學(xué)的一個(gè)分支,涉及到語言學(xué)、計(jì)算機(jī)、認(rèn)知科學(xué)、信息論等學(xué)科。
自然語言處理,讓機(jī)器能理解自然語言,能夠像人類一樣生成和理解自然語言。
計(jì)算機(jī)視覺,使計(jì)算機(jī)能通過圖像來認(rèn)知環(huán)境信息的能力,比如識(shí)別環(huán)境找那個(gè)物體的形狀、位置、姿勢(shì)、運(yùn)動(dòng)等,進(jìn)一步還需要對(duì)其進(jìn)行理解。
專家系統(tǒng),一種具有名特定領(lǐng)域大量知識(shí)和經(jīng)驗(yàn)的系統(tǒng),就像人類某方面的專家具有豐富的專業(yè)知識(shí)和經(jīng)驗(yàn),能夠快速解決相應(yīng)領(lǐng)域的問題。
大數(shù)據(jù)與AI
大數(shù)據(jù)與人工智能是密不可分的,大數(shù)據(jù)的發(fā)展離不開人工智能,沒有人工智能的加持大數(shù)據(jù)就無法擁有智能。而人工智能的發(fā)展又離不開數(shù)據(jù)的支持,它需要海量數(shù)據(jù)作為思考決策的基矗一般認(rèn)為人工智能三大基礎(chǔ)是數(shù)據(jù)、算法和算力,算力則是另外一個(gè)維度的基礎(chǔ)了,如果沒有硬件的迅猛發(fā)展以及并行運(yùn)算等就不會(huì)有這一輪的人工智能浪潮。因?yàn)樗惴ň退阍俸茫绻麤]有算力加持,它也是沒有實(shí)際應(yīng)用價(jià)值的算法。
機(jī)器學(xué)習(xí)vs人工智能
總體上來說,機(jī)器學(xué)習(xí)屬于人工智能的子集,是實(shí)現(xiàn)人工智能的一種方式。而談到機(jī)器學(xué)習(xí)就必會(huì)牽涉到近些年大火的深度學(xué)習(xí),深度學(xué)習(xí)又是機(jī)器學(xué)習(xí)的子集。所以它們的關(guān)系就像是俄羅斯套娃,一層套一層。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)的起點(diǎn)是研究如何不使用明確的指令編碼完成某任務(wù),而是讓機(jī)器從數(shù)據(jù)中學(xué)習(xí)從而獲得相應(yīng)能力。機(jī)器學(xué)習(xí)從已知的數(shù)據(jù)特征出發(fā),利用概率統(tǒng)計(jì)等數(shù)學(xué)方法來得到某種規(guī)律,然后利用該規(guī)律完成某個(gè)預(yù)測(cè)任務(wù)。如果用一句話來簡(jiǎn)單描述就是:使用某個(gè)數(shù)據(jù)特征的數(shù)學(xué)表達(dá)式來表征某個(gè)事物。
機(jī)器學(xué)習(xí)的正式定義為:“對(duì)于某類任務(wù)T和性能度量P,如果一個(gè)計(jì)算機(jī)程序在T上以P衡量的性能隨著經(jīng)驗(yàn)E而自我完善,那么我們稱這個(gè)計(jì)算機(jī)程序從經(jīng)驗(yàn)E中學(xué)習(xí)?!?。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)關(guān)注的是如何通過編程讓機(jī)器自己從以往的數(shù)據(jù)樣本里面學(xué)習(xí)某些規(guī)律,從而能夠?qū)ξ磥磉M(jìn)行預(yù)測(cè)或決策,即實(shí)現(xiàn)一個(gè)可以根據(jù)經(jīng)驗(yàn)(數(shù)據(jù))并以某種規(guī)范為指導(dǎo)來進(jìn)行自我優(yōu)化的任務(wù)執(zhí)行程序。比如我們收集很多貓和狗的不同照片,機(jī)器根據(jù)這些照片自己學(xué)習(xí)到規(guī)律,從而實(shí)現(xiàn)了貓和狗的識(shí)別能力。