2011年,時任商業(yè)智能開發(fā)商Pentaho公司首席技術官的James Dixon創(chuàng)造了“數據湖”這一術語。他將數據湖與當時流行的數據集市的典型信息孤島進行了對比:如果將數據集市視為銷售瓶裝水的商店(經過清潔和包裝處理以便于飲用),那么數據湖就是處于更自然狀態(tài)的大片水體。數據湖的內容從一個源頭流入,填滿湖泊。采用數據湖,用戶可以來檢查、潛入或采集樣本。
從那時起,數據湖技術不斷發(fā)展,現(xiàn)在正在與數據倉庫爭奪大數據存儲和分析的市場份額。各種工具和產品支持數據湖中更快的SQL查詢,而全球三個主要云計算提供商都提供了數據湖存儲和分析。甚至還推出了將治理、安全性和分析與成本更低的存儲結合起來的數據湖屋的概念。本文將深入探討數據湖是什么、如何使用數據湖以及如何確保數據湖不會成為數據沼澤。
數據湖vs數據倉庫
問題不在于是否需要數據湖或數據倉庫。很可能兩者都需要,但其目的不同,也可以將它們組合起來。首先了解數據湖和數據倉庫之間的主要區(qū)別:
數據源:數據湖的典型數據源包括日志文件、來自點擊流的數據、社交媒體帖子以及來自互聯(lián)網連接設備的數據。數據倉庫通常存儲從事務數據庫、業(yè)務線應用程序和操作數據庫中提取的數據以供分析。
模式策略:數據湖的數據庫模式通常在分析時應用,稱之為讀模式。企業(yè)數據倉庫的數據庫模式通常在創(chuàng)建數據存儲之前設計,并在數據導入時應用于數據,這稱之為寫模式。
存儲基礎設施:數據倉庫通常采用大量價格高昂的內存和SSD硬盤,以便快速提供查詢結果。數據湖通常在計算機集群上使用價格較低的機械硬盤進行存儲。數據倉庫和數據湖都使用大規(guī)模并行處理(MPP)來加速SQL查詢。
技術驅動倍增數據價值 · 場景化應用解決“痛點”
2020年4月中共中央、國務院發(fā)布《關于構建更加完善的要素市場化配置體制機制的意見》,數據已然被定義為繼土地、勞動力、資本、技術之后的生產要素。2021年3月,《中華人民共和國國民經濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》提出推進要素市場化配置改革,發(fā)展技術和數據要素市場,健全要素市場運行機制,完善交易規(guī)則和服務體系。
2022年政府工作報告指出,“促進數字經濟發(fā)展。加強數字中國建設整體布局?!睌祿@示,2020年,我國數字經濟總量躍居世界第二,數字經濟規(guī)模達到39.2萬億元,占GDP比重達38.6%,增速達9.7%。不可否認,以數字經濟為代表的新經濟新動能正在加速孕育形成。
“如果說建設數據交易的第三方市場是數據要素流通和交易產業(yè)1.0的話,我們已經走到了2.0。基于多源多模態(tài)數據融合認知計算技術賦能行業(yè)場景的智能決策平臺,在具體的應用場景中也可以融合其它數據智能技術解決企業(yè)、產業(yè)的應用痛點問題,有了這些價值應用,數據要素流通和交易才能打通了‘任督二脈’,疏通這些數字經濟場景中的‘毛細血管’才是這個產業(yè)的機會點?!蔽錆h東湖大數據交易中心股份有限公司負責人杜小軍說。
能科數智科技有限公司總經理助理付思思說:“我們依托于先進的工業(yè)軟件以及電力電子信息技術,助力區(qū)域優(yōu)化升級和產業(yè)鏈的完善,這一塊也為客戶提供了以工業(yè)互聯(lián)網為核心的數字化、網絡化、智能化的解決方案?!?
據悉,能科數智是北京能科科技股份有限公司在貴州成立的子公司,主要致力于工業(yè)互聯(lián)網領域的開拓。目前,公司擁有工業(yè)建模和大數據分析、數據管理、應用開發(fā)及邊緣層處理等多項核心技術,可實現(xiàn)全流程的數字孿生,為工業(yè)企業(yè)數字化轉型升級、助力我省工業(yè)高質量發(fā)展提供新動能。