大數(shù)據(jù)到底是什么,大數(shù)據(jù)有哪些特征?
掃描二維碼
隨時(shí)隨地手機(jī)看文章
大數(shù)據(jù)時(shí)代的到來(lái),離不開(kāi)很多契機(jī),包括但不限于互聯(lián)網(wǎng)的發(fā)展(這會(huì)導(dǎo)致數(shù)據(jù)吞吐量的急劇增長(zhǎng))、采集技術(shù)的發(fā)展(各種傳感器、各個(gè)環(huán)節(jié)的數(shù)據(jù)埋點(diǎn))、硬件發(fā)展(存儲(chǔ)硬件、運(yùn)算處理硬件)、數(shù)據(jù)應(yīng)用場(chǎng)景擴(kuò)展(數(shù)據(jù)挖掘分析技術(shù)的發(fā)展,使得越來(lái)越多的場(chǎng)景都可以通過(guò)數(shù)據(jù)獲取價(jià)值)等因素,而隨著大數(shù)據(jù)概念的深化,各行各業(yè)的數(shù)據(jù)量的積累,使得越來(lái)越多的人會(huì)接觸到大數(shù)據(jù),至少接觸大數(shù)據(jù)這個(gè)概念,有的甚至是在使用大數(shù)據(jù),在不知不覺(jué)中其實(shí)就與大數(shù)據(jù)接軌。
但是,在不借助大數(shù)據(jù)平臺(tái)的情況下,我們往往很難直接使用傳統(tǒng)的分析工具,比如用Excel等數(shù)據(jù)處理和分析工具來(lái)處理海量的數(shù)據(jù),極易發(fā)生卡頓以及需要較長(zhǎng)的響應(yīng)時(shí)間,這是由于計(jì)算機(jī)本身的計(jì)算邏輯決定的,當(dāng)單臺(tái)計(jì)算機(jī)的數(shù)據(jù)吞吐量上去之后,會(huì)發(fā)現(xiàn)計(jì)算機(jī)好像停住了好久都沒(méi)反應(yīng)。當(dāng)然,性能不同的電腦,所對(duì)應(yīng)的這個(gè)處理能力上限是不相同的,但總言之,數(shù)據(jù)量的大是一種模糊的概念,并不是說(shuō)一定多少數(shù)據(jù)才算大數(shù)據(jù),而數(shù)據(jù)量的大使得我們常規(guī)的數(shù)據(jù)處理分析的工具和方法難以使用的情況,正是“大數(shù)據(jù)分析”和普通的“數(shù)據(jù)分析”之間的門(mén)檻,即實(shí)現(xiàn)技術(shù)。
有些人接觸到了一些大數(shù)據(jù)的項(xiàng)目,覺(jué)得數(shù)據(jù)量確實(shí)大,但是還沒(méi)達(dá)到傳統(tǒng)工具處理不了的地步,也被稱(chēng)為大數(shù)據(jù)分析。所以只是大家對(duì)這里的“大”的界定不相同而已。
體量(Volume)。大數(shù)據(jù)由大量數(shù)據(jù)組成,從幾個(gè)TB到幾個(gè)ZB。百度資料表明,其新首頁(yè)導(dǎo)航每天需要提供的數(shù)據(jù)超過(guò)1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來(lái)將超過(guò)5千億張A4紙。有資料證實(shí),到目前為止,人類(lèi)生產(chǎn)的所有印刷材料的數(shù)據(jù)量?jī)H為200PB。這些數(shù)據(jù)可能會(huì)分布在許多地方,通常是在接入因特網(wǎng)的計(jì)算網(wǎng)絡(luò)中。一般來(lái)說(shuō),凡是滿足大數(shù)據(jù)的幾個(gè)V條件的數(shù)據(jù)都會(huì)因?yàn)樘蠖鵁o(wú)法被單獨(dú)的計(jì)算機(jī)處理。單單這一個(gè)問(wèn)題就需要一種不同的數(shù)據(jù)處理思路,這也使得并行計(jì)算技術(shù)(例如MapReduce)得以迅速崛起。
多樣(Variety)。在過(guò)去,數(shù)據(jù)或多或少是同構(gòu)的,這種特點(diǎn)也使得它更易于管理。這種情況并不出現(xiàn)在大數(shù)據(jù)中,由于數(shù)據(jù)的來(lái)源各異,因此形式各異。這體現(xiàn)為各種不同的數(shù)據(jù)結(jié)構(gòu)類(lèi)型,半結(jié)構(gòu)化以及完全非結(jié)構(gòu)化的數(shù)據(jù)類(lèi)型。在過(guò)去的幾年里,半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)成為了大數(shù)據(jù)的主體數(shù)據(jù)類(lèi)型。數(shù)據(jù)類(lèi)型繁多不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類(lèi)型的數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對(duì)多數(shù)。
準(zhǔn)確(Veracity)。只要合理利用數(shù)據(jù)并對(duì)其進(jìn)行正確、準(zhǔn)確的分析,將會(huì)帶來(lái)很高的價(jià)值回報(bào)。準(zhǔn)確是一個(gè)在討論大數(shù)據(jù)時(shí)時(shí)常被忽略的一個(gè)屬性,部分原因是這個(gè)屬性相對(duì)來(lái)說(shuō)比較新,盡管它與其他的屬性同樣重要。準(zhǔn)確是一個(gè)與數(shù)據(jù)是否可靠相關(guān)的屬性,也就是那些在數(shù)據(jù)科學(xué)流程中會(huì)被用于決策的數(shù)據(jù)(而這不同于與傳統(tǒng)的數(shù)據(jù)分析流程),精確性與信噪比有關(guān)。
大數(shù)據(jù)分析及挖掘技術(shù):數(shù)據(jù)分析及挖掘技術(shù)是大數(shù)據(jù)的核心技術(shù)。主要是在現(xiàn)有的數(shù)據(jù)上進(jìn)行基于各種預(yù)測(cè)和分析的計(jì)算,從而起到預(yù)測(cè)的效果,滿足一些高別數(shù)據(jù)分析的需求。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)實(shí)際數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識(shí)的過(guò)程。
數(shù)據(jù)展現(xiàn)和應(yīng)用:大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息挖掘出來(lái),從而是高各個(gè)領(lǐng)域的運(yùn)行效率。在我國(guó),大數(shù)據(jù)重點(diǎn)應(yīng)用于以下三大領(lǐng)域:商業(yè)智能、政決策和公共服務(wù)。