大數(shù)據(jù)的概念及特點(diǎn)大數(shù)據(jù)的作用有哪些
隨著互聯(lián)網(wǎng)的飛速發(fā)展,特別是近年來(lái)隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計(jì)算以及多種傳感器的廣泛應(yīng)用,以數(shù)量龐大,種類眾多,時(shí)效性強(qiáng)為特征的非結(jié)構(gòu)化數(shù)據(jù)不斷涌現(xiàn),數(shù)據(jù)的重要性愈發(fā)凸顯,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、分析技術(shù)難以實(shí)時(shí)處理大量的非結(jié)構(gòu)化信息,大數(shù)據(jù)的概念應(yīng)運(yùn)而生。如何獲取、聚集、分析大數(shù)據(jù)成為廣泛關(guān)注的熱點(diǎn)問(wèn)題。介紹大數(shù)據(jù)的概念與特點(diǎn),分別討論大數(shù)據(jù)的典型的特征,分析大數(shù)據(jù)要解決的相關(guān)性分析、實(shí)時(shí)處理等核心問(wèn)題,最后討論大數(shù)據(jù)可能要面臨的多種挑戰(zhàn)。
大數(shù)據(jù)”是近年來(lái)IT行業(yè)的熱詞,大數(shù)據(jù)在各個(gè)行業(yè)的應(yīng)用逐漸變得廣泛起來(lái),如2014年的兩會(huì),我們聽得最多的也是大數(shù)據(jù)分析,那么,什么是大數(shù)據(jù)呢,什么是大數(shù)據(jù)概念呢,大數(shù)據(jù)概念怎么理解呢,一起來(lái)看看吧。
大數(shù)據(jù)概念:大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。(在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中[2] 大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法)大數(shù)據(jù)的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。
大數(shù)據(jù)概念的發(fā)展歷史:
“大數(shù)據(jù)”這個(gè)術(shù)語(yǔ)最早期的引用可追溯到apache org的開源項(xiàng)目Nutch。當(dāng)時(shí),大數(shù)據(jù)用來(lái)描述為更新網(wǎng)絡(luò)搜索索引需要同時(shí)進(jìn)行批量處理或分析的大量數(shù)據(jù)集。隨著谷歌MapReduce和Google File System (GFS)的發(fā)布,大數(shù)據(jù)不再僅用來(lái)描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度。
早在1980年,著名未來(lái)學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪
潮的華彩樂(lè)章”。不過(guò),大約從2009年開始,“163大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。美國(guó)互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長(zhǎng)50%,每?jī)赡瓯銓⒎环壳笆澜缟?0%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們?cè)诨ヂ?lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無(wú)數(shù)的數(shù)碼傳感器,隨時(shí)測(cè)量和傳遞著有關(guān)位置、運(yùn)動(dòng)、震動(dòng)、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。
大數(shù)據(jù)概念結(jié)構(gòu):大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒(méi)有必要神話它或?qū)λ3志次分?,在以云?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開始容易被利用起來(lái)了,通過(guò)各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會(huì)逐步為人類創(chuàng)造更多的價(jià)值。
其次,想要系統(tǒng)的認(rèn)知大數(shù)據(jù),必須要全面而細(xì)致的分解它,我著手從三個(gè)層面來(lái)展開:
第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。我會(huì)從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性;從對(duì)大數(shù)據(jù)價(jià)值的探討來(lái)深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢(shì);從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。我將分別從云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來(lái)說(shuō)明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過(guò)程。
第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。我將分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個(gè)人的大數(shù)據(jù)四個(gè)方面來(lái)描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。
大數(shù)據(jù)概念的特點(diǎn):大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)?!队?jì)算機(jī)學(xué)報(bào)》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺(tái)需要具備的幾個(gè)重要特性,對(duì)當(dāng)前的主流實(shí)現(xiàn)平臺(tái)——并行數(shù)據(jù)庫(kù)、MapReduce及基于兩者的混合架構(gòu)進(jìn)行了分析歸納,指出了各自的優(yōu)勢(shì)及不足,同時(shí)也對(duì)各個(gè)方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進(jìn)行了介紹,對(duì)未來(lái)研究做了展望。
大數(shù)據(jù)的4個(gè)“V”,或者說(shuō)特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,處理速度快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息,這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第四,只要合理利用數(shù)據(jù)并對(duì)其進(jìn)行正確、準(zhǔn)確的分析,將會(huì)帶來(lái)很高的價(jià)值回報(bào)。業(yè)界將其歸納為4個(gè)“V”——Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價(jià)值)。
從某種程度上說(shuō),大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡(jiǎn)言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。
大數(shù)據(jù)概念的用途:大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問(wèn)題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營(yíng)管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過(guò)程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。
物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。
有些例子包括網(wǎng)絡(luò)日志,RFID,傳感器網(wǎng)絡(luò),社會(huì)網(wǎng)絡(luò),社會(huì)數(shù)據(jù)(由于數(shù)據(jù)革命的社會(huì)),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細(xì)記錄,天文學(xué),大氣科學(xué),基因組學(xué),生物地球化學(xué),生物,和其他復(fù)雜和/或跨學(xué)科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務(wù) 。
大數(shù)據(jù)的作用對(duì)于一般的企業(yè)而言,大數(shù)據(jù)的作用主要表現(xiàn)在兩個(gè)方面,分別是數(shù)據(jù)的分析使用與進(jìn)行二次開發(fā)項(xiàng)目。通過(guò)對(duì)禧金信息大數(shù)據(jù)進(jìn)行分析,不僅能把隱藏的數(shù)據(jù)挖掘出來(lái),還能通過(guò)這些隱藏的訊息,通過(guò)實(shí)體的銷售,提升自己的客戶源。至于對(duì)數(shù)據(jù)進(jìn)行二次開發(fā),在網(wǎng)絡(luò)服務(wù)項(xiàng)目中被運(yùn)用的比較多,通過(guò)將這些信息進(jìn)行總結(jié)與分析,從而制定出符合客戶需要的個(gè)性化方案,并營(yíng)造出一種全新的廣告營(yíng)銷方式,在這里,你需要明白的是,通過(guò)大數(shù)據(jù)的分析,將產(chǎn)品與服務(wù)進(jìn)行結(jié)合起來(lái)的并不是偶然事件,實(shí)現(xiàn)這種的往往是數(shù)據(jù)時(shí)代的領(lǐng)導(dǎo)者。
綜上所述,大數(shù)據(jù)的運(yùn)用,不僅標(biāo)志著時(shí)代的進(jìn)步,同時(shí)還激勵(lì)著人們進(jìn)行更深領(lǐng)域的探究。此外,針對(duì)大數(shù)據(jù)的研究,除了上述內(nèi)容外,還需要了解大數(shù)據(jù)的三個(gè)特征,分別是規(guī)模大、運(yùn)轉(zhuǎn)速度快及數(shù)據(jù)多樣性。通過(guò)對(duì)這三個(gè)方面的研究,不僅可以更容易的觀察到數(shù)據(jù)的本質(zhì)嗎,有利于軟件處理平臺(tái)的有效運(yùn)轉(zhuǎn)。