關(guān)于大數(shù)據(jù)技術(shù)的這些知識(shí),你都了解多少?
掃描二維碼
隨時(shí)隨地手機(jī)看文章
從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù),從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù),也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。大數(shù)據(jù)最核心的價(jià)值就是在于對于海量數(shù)據(jù)進(jìn)行存儲(chǔ)和分析,相比起現(xiàn)有的其他技術(shù)而言,大數(shù)據(jù)的“廉價(jià)、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。盡管有些網(wǎng)絡(luò)數(shù)據(jù)披著大數(shù)據(jù)的外衣,但并不是每一種數(shù)據(jù)融合都可以叫做大數(shù)據(jù)。有些數(shù)據(jù)擁有以下4種屬性中的一種或多種,也不能被歸類為大數(shù)據(jù),要完全擁有以下4種特性(大數(shù)據(jù)的4個(gè)“V”)才能稱得上是大數(shù)據(jù)。
大數(shù)據(jù)是在運(yùn)動(dòng)著的,通常處于很高的傳輸速度之下。它經(jīng)常被認(rèn)為是數(shù)據(jù)流,而數(shù)據(jù)流通常是很難被歸檔的(考慮到有限的網(wǎng)絡(luò)存儲(chǔ)空間,單單是高速就已經(jīng)是一個(gè)巨大的問題)。這就是為什么只能收集到數(shù)據(jù)其中的某些部分。如果我們有能力收集數(shù)據(jù)的全部,長時(shí)間存儲(chǔ)大量數(shù)據(jù)也會(huì)顯得非常昂貴,所以周期性的收集數(shù)據(jù)遺棄一部分?jǐn)?shù)據(jù)以節(jié)省空間,僅保留數(shù)據(jù)摘要(如平均值和方差)。這個(gè)問題在未來會(huì)顯得更為嚴(yán)重,因?yàn)樵絹碓蕉嗟臄?shù)據(jù)正以越來越快的速度產(chǎn)生。數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息,這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
大數(shù)據(jù)采集技術(shù):數(shù)據(jù)采集是通過RFID射頻技術(shù)、傳感器以及移動(dòng)互聯(lián)網(wǎng)等方式獲得的各種類型的結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層和基礎(chǔ)支撐層: 大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識(shí)別體系及軟硬件資源接入系統(tǒng)。實(shí)現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理等。必須著重攻克針對大數(shù)據(jù)源的智能識(shí)別、感知、適配、傳輸、接入等技術(shù)。
基礎(chǔ)支撐層:提供大數(shù)據(jù)服務(wù)平臺(tái)所需的虛擬服務(wù)器,結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫及物聯(lián)網(wǎng)絡(luò)資源等基礎(chǔ)支撐環(huán)境。重點(diǎn)攻克分布式虛擬存儲(chǔ)技術(shù),大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策操作的可視化接口技術(shù),大數(shù)據(jù)的區(qū)絡(luò)傳輸與壓縮技術(shù),大數(shù)據(jù)隱私保護(hù)技術(shù)等。
大數(shù)據(jù)預(yù)處理技術(shù):大數(shù)據(jù)預(yù)處理主要完成對已接收數(shù)據(jù)的抽取、清洗等操作。
抽取:因獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過程可以將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型,以達(dá)到快速分析處理的目的。
清洗:對于大數(shù)據(jù),并不全是有價(jià)值的,有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容,而另一些數(shù)據(jù)則是完全錯(cuò)誤的干擾項(xiàng),因此要對數(shù)據(jù)通過過濾"去噪"從而提取出有效數(shù)據(jù)。
在實(shí)現(xiàn)技術(shù)層面確實(shí)差別會(huì)很大,但是總體的分析流程其實(shí)和傳統(tǒng)的數(shù)據(jù)分析差不多,也是有著:數(shù)據(jù)采集、預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析這樣的過程。但因?yàn)?a href="/tags/大數(shù)據(jù)分析" target="_blank">大數(shù)據(jù)分析數(shù)據(jù)量十分龐大的特點(diǎn),導(dǎo)致這些過程在處理技術(shù)上都要依托相應(yīng)的底層框架。這也使得大數(shù)據(jù)分析具有以下特點(diǎn)
數(shù)據(jù)量大:因?yàn)閿?shù)據(jù)量的龐大,導(dǎo)致大數(shù)據(jù)分析需要另外的實(shí)現(xiàn)工具和框架。但這個(gè)龐大的界定有多種說法,有的是說幾十萬,幾百萬就是很大的數(shù)據(jù)量,有的說數(shù)據(jù)量達(dá)到傳統(tǒng)處理根據(jù)沒法處理的程度才算大(包括非結(jié)構(gòu)化數(shù)據(jù)處理維度很大,上萬的數(shù)據(jù)量就很難處理了),這些都可以稱為大數(shù)據(jù)。
對算法要求較低:隨著數(shù)據(jù)量的增加,大數(shù)據(jù)分析的方法可能會(huì)趨向于基礎(chǔ)化,就是不會(huì)很復(fù)雜。其實(shí)大數(shù)據(jù)挖掘更多的是挖掘相關(guān)性,而這種相關(guān)性也難以被嚴(yán)格證明為因果,且大數(shù)據(jù)的繁雜,導(dǎo)致很難做精確的分析,或者說做出的精確分析的可靠性也會(huì)打折扣,所以一般會(huì)用基礎(chǔ)的算法(實(shí)際中往往是更簡單些的算法效果更好)。