大數據(big data)是指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。大數據本身是基于數據價值化而構建出來的新概念,雖然概念比較新,但是數據卻一直都在,所以大數據的核心并不在“大”上,而是基于大數據所構建出的一個新的價值空間。
在理解大數據概念的時候,通常都有幾個較為明顯的誤區(qū),其一是只有足夠大的數據才能算是大數據范疇;其二是大數據和互聯網是隔離的;其三是大數據就是統計學;其四是大數據會“殺熟”,應該盡量遠離大數據等等。
在大數據時代,任何體量的數據都可以采用大數據技術進行處理,傳統的結構化數據處理方式也已經并入到了大數據的技術體系,所以大數據技術本身對于數據量的大小并沒有絕對的要求,并不是說數據量小就不能采用大數據技術。
目前大數據人才的培養(yǎng)既包括研究生教育(培養(yǎng)創(chuàng)新型人才),也包括??平逃捅究平逃?,隨著大數據技術體系的逐漸成熟,學習大數據的過程也會更為順利。
大數據本身是互聯網、物聯網和傳統信息系統共同發(fā)展所導致的結果,所以大數據與互聯網存在緊密的聯系,事實上目前互聯網領域是推動大數據發(fā)展的重要力量,所以大數據與互聯網本身就密不可分。從互聯網發(fā)展的前景來看,大數據是互聯網價值的重要體現,所以未來大數據的價值必然會不斷得到提升。目前大數據分析技術往往會采用統計學的方式,這導致不少人認為大數據就是統計學,實際上大數據在進行數據分析的過程中,不僅需要統計學技術,也需要機器學習相關技術。當然,統計學作為大數據的三大基礎學科,在大數據技術體系中占有重要的地位。