淺析大數(shù)據(jù)技術及大數(shù)據(jù)分析特征!
大數(shù)據(jù)需要特殊的技術,主要包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘網(wǎng)絡、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。大數(shù)據(jù)技術分為整體技術和關鍵技術兩個方面。
1.整體技術
整體技術主要有數(shù)據(jù)采集、數(shù)據(jù)存取、基礎架構、數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、模型預測和結果呈現(xiàn)等。
2.關鍵技術
大數(shù)據(jù)處理關鍵技術一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應用、大數(shù)據(jù)安全等)。
大數(shù)據(jù)采集技術:數(shù)據(jù)采集是通過RFID射頻技術、傳感器以及移動互聯(lián)網(wǎng)等方式獲得的各種類型的結構化及非結構化的海量數(shù)據(jù)。大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層和基礎支撐層: 大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng)。實現(xiàn)對結構化、半結構化、非結構化的海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監(jiān)控、初步處理和管理等。必須著重攻克針對大數(shù)據(jù)源的智能識別、感知、適配、傳輸、接入等技術。
在實現(xiàn)技術層面確實差別會很大,但是總體的分析流程其實和傳統(tǒng)的數(shù)據(jù)分析差不多,也是有著:數(shù)據(jù)采集、預處理、數(shù)據(jù)存儲、數(shù)據(jù)分析這樣的過程。但因為大數(shù)據(jù)分析數(shù)據(jù)量十分龐大的特點,導致這些過程在處理技術上都要依托相應的底層框架。這也使得大數(shù)據(jù)分析具有以下特點:
數(shù)據(jù)存儲也很關鍵:數(shù)據(jù)量的急劇增加使得對數(shù)據(jù)的存儲也有更高的要求。實際應用中,往往處理的是海量的動態(tài)增加的數(shù)據(jù),因此對數(shù)據(jù)庫的存儲查詢也有著較高的要求,多用分布式數(shù)據(jù)庫進行按類匯總存儲。
多為云計算、云存儲環(huán)境:大數(shù)據(jù)處理對實驗環(huán)境有著較高的要求,通常都是在普通計算機的集群上實現(xiàn)處理操作。也可以遠程使用云計算、云存儲資源,這也是我們使用很多的大數(shù)據(jù)平臺它的一個邏輯,平臺即服務。但如果我們只是自己做一下集群實驗的話,可以用兩三臺電腦來部署;也可以在一臺電腦上分出三個有虛擬機,可以把它們看成是三臺計算機,只不過他們在同一臺電腦上,是人為虛擬分出來的計算機,也可以通過這個虛擬機的方式來模擬多機集群計算。
小編也是在幾年前接觸過大數(shù)據(jù)技術的課程,偏實現(xiàn)層面。很復雜,且Hadoop只是這些眾多框架的一部分,還有很多的輔助實現(xiàn)其他功能的框架,是一個大的軟件生態(tài)。這些都是傳統(tǒng)數(shù)據(jù)分析轉向大數(shù)據(jù)分析要面臨的門檻,且這還只是一部分,當然如果要涉足大數(shù)據(jù)還是得知道大數(shù)據(jù)的一些特性,包括常見的數(shù)據(jù)問題要怎么處理解決等。對零基礎的讀者來說,這一塊要有一個漫長的學習周期,且還要有一定的環(huán)境條件供練習。
只要合理利用數(shù)據(jù)并對其進行正確、準確的分析,將會帶來很高的價值回報。準確是一個在討論大數(shù)據(jù)時時常被忽略的一個屬性,部分原因是這個屬性相對來說比較新,盡管它與其他的屬性同樣重要。準確是一個與數(shù)據(jù)是否可靠相關的屬性,也就是那些在數(shù)據(jù)科學流程中會被用于決策的數(shù)據(jù)(而這不同于與傳統(tǒng)的數(shù)據(jù)分析流程),精確性與信噪比有關。
在大數(shù)據(jù)中發(fā)現(xiàn)哪些數(shù)據(jù)對商業(yè)是真正有效的,這在信息理論中是個十分重要的概念。并不是所有的數(shù)據(jù)源都具有相等的可靠性,在這個過程中大數(shù)據(jù)的精確性會趨于變化,如何增加可用數(shù)據(jù)的精確性是大數(shù)據(jù)面臨的主要挑戰(zhàn)。數(shù)據(jù)價值密度低,商業(yè)價值高,以視頻為例,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。