大數(shù)據(jù)創(chuàng)新范式解析
掃描二維碼
隨時(shí)隨地手機(jī)看文章
隨著大數(shù)據(jù)的快速發(fā)展,就像計(jì)算機(jī)和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)很有可能是新一輪的技術(shù)革命。隨之興起的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能等相關(guān)技術(shù),可能會(huì)改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論,實(shí)現(xiàn)科學(xué)技術(shù)上的突破。近年來,全球大數(shù)據(jù)產(chǎn)業(yè)發(fā)展迅速,行業(yè)應(yīng)用得到快速推廣,市場規(guī)模增速明顯,大數(shù)據(jù)對(duì)于人們生活方式、國家經(jīng)濟(jì)發(fā)展以及社會(huì)治理方式都帶來了巨大的影響。利用大數(shù)據(jù)對(duì)個(gè)人數(shù)據(jù)的挖掘和分析,能夠幫助企業(yè)更好的理解用戶需求,提供個(gè)性化定制服務(wù),實(shí)現(xiàn)減少經(jīng)營成本,提高服務(wù)效率和提升用戶體驗(yàn)的目的。
2017年1月,我國工信部發(fā)布了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃2016-2020年》,進(jìn)一步明確了促進(jìn)我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的主要任務(wù)和保障措施。黨的十九大也明確提出要構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟(jì),推動(dòng)大數(shù)據(jù)與實(shí)體經(jīng)濟(jì)的深度融合,并且切實(shí)保障國家數(shù)據(jù)安全。根據(jù)有關(guān)公開數(shù)據(jù)顯示,全球大數(shù)據(jù)行業(yè)市場規(guī)模呈爆發(fā)性增長,全球數(shù)據(jù)總量將從2016年的16.1ZB增長到2025年的163ZB(約合180萬億GB),十年10倍的增長,復(fù)合增長率為26%。數(shù)據(jù)量的快速增長已經(jīng)遠(yuǎn)遠(yuǎn)超越單個(gè)計(jì)算機(jī)存儲(chǔ)和處理能力,數(shù)據(jù)中心處理能力變得日益重要,同時(shí)也驅(qū)動(dòng)著數(shù)據(jù)中心網(wǎng)絡(luò)不斷向大帶寬低時(shí)延方向演進(jìn)。
數(shù)據(jù)來源:中國產(chǎn)業(yè)信息網(wǎng),圖表1 2016—2025年全球數(shù)據(jù)總量預(yù)測圖
2017年超大規(guī)模數(shù)據(jù)中心新增90個(gè),總量從2016年的300家增加到390家。絕大多數(shù)超大規(guī)模數(shù)據(jù)中心仍位于美國,占比44%;中國位居第二,占8%;其次是日本和英國,分別占6%;澳大利亞、德國緊隨其后,占比5%。2017年底在建的項(xiàng)目有69個(gè),按照目前的速度,到2019年底前全球超大規(guī)模數(shù)據(jù)中心的數(shù)量有望突破500個(gè),2020年有望突破600個(gè),市場規(guī)模也將從2016年的202.4億美元增長到2020年的490億美元,復(fù)合增長率為24.7%。
數(shù)據(jù)來源:中國產(chǎn)業(yè)信息網(wǎng),圖表2 2016—2025年全球數(shù)據(jù)總量預(yù)測圖
數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)已成為特殊的資產(chǎn),能夠在被使用和流轉(zhuǎn)中不斷創(chuàng)造新的價(jià)值。然而,數(shù)據(jù)造假問題泛濫,大量用戶數(shù)據(jù)被泄露等問題使得大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展備受質(zhì)疑。投資人在選擇和評(píng)估一個(gè)產(chǎn)品或企業(yè)時(shí),主要通過用戶量、活躍用戶量、使用時(shí)長、點(diǎn)評(píng)量數(shù)據(jù)判斷產(chǎn)品的是否值得投資,而眾多互聯(lián)網(wǎng)平臺(tái)為了獲得利益,采用了數(shù)據(jù)造假的手段。社交媒體“制造用戶”、電商平臺(tái)“刷單”、點(diǎn)評(píng)類網(wǎng)站“刷好評(píng)”等數(shù)據(jù)造假例子屢見不鮮,隨著新媒體產(chǎn)品更新迭代,還出現(xiàn)了給直播、短視頻等刷贊的業(yè)務(wù)。
近期大型互聯(lián)網(wǎng)平臺(tái)數(shù)據(jù)泄露事件也頻頻出現(xiàn),雅虎、谷歌及萬豪等著名企業(yè)下大量用戶的隱私數(shù)據(jù)被盜取。Verizon 公司《2018 年數(shù)據(jù)泄露調(diào)查報(bào)告》顯示,48%的數(shù)據(jù)泄露與黑客攻擊有關(guān),但是內(nèi)部操作錯(cuò)誤及特權(quán)濫用等內(nèi)部攻擊方式也是數(shù)據(jù)泄露的主要原因。
隨著大數(shù)據(jù)行業(yè)的增長,大數(shù)據(jù)的可信性和隱私安全性已成為現(xiàn)階段技術(shù)所需解決的重點(diǎn),不僅要降低外部攻擊的風(fēng)險(xiǎn),還要從技術(shù)上實(shí)現(xiàn)內(nèi)部防范與管理。
大數(shù)據(jù)合法收集、市場計(jì)量、脫敏流轉(zhuǎn)、開放應(yīng)用的痛點(diǎn)問題亟待標(biāo)準(zhǔn)化解決方案,目前新加坡WOLOT基金會(huì)的TOOL數(shù)金鏈生態(tài)解決方案有效的解決了上述難點(diǎn)問題,其運(yùn)用大數(shù)據(jù)合法收集即用戶主動(dòng)授權(quán)參加行為數(shù)據(jù)挖礦確權(quán)機(jī)制,通過數(shù)據(jù)的信息廣度、數(shù)量、質(zhì)量等衡量參數(shù)對(duì)用戶的數(shù)據(jù)價(jià)值公允計(jì)量定義出企業(yè)衡量規(guī)范,通過標(biāo)準(zhǔn)化數(shù)據(jù)徹底脫敏創(chuàng)新方案有效進(jìn)行數(shù)據(jù)隱私保護(hù),最終把用戶授權(quán)收集、流轉(zhuǎn)、應(yīng)用的數(shù)據(jù)價(jià)值標(biāo)記進(jìn)行市場化衡量。初期會(huì)先形成聯(lián)盟企業(yè)規(guī)范,逐步完善上升到行業(yè)標(biāo)準(zhǔn),努力成為未來數(shù)字經(jīng)濟(jì)的數(shù)據(jù)衡量流轉(zhuǎn)運(yùn)用的國際標(biāo)準(zhǔn)。
據(jù)了解新加坡WOLOT基金會(huì)已經(jīng)完成了下列的能力建設(shè):
(一)實(shí)時(shí)行為數(shù)據(jù)的記錄規(guī)范
行為數(shù)據(jù)分類:過往履歷數(shù)據(jù)、日常消費(fèi)數(shù)據(jù)、行為動(dòng)作數(shù)據(jù)、金融資產(chǎn)數(shù)據(jù)、社交人脈數(shù)據(jù),用戶通過客戶端上傳數(shù)據(jù)或?qū)崟r(shí)產(chǎn)生數(shù)據(jù)可以獲得貢獻(xiàn)權(quán)益確認(rèn),平臺(tái)通過貢獻(xiàn)的權(quán)證進(jìn)行標(biāo)記把價(jià)值權(quán)益返還給生態(tài)貢獻(xiàn)者,使得用戶通過數(shù)據(jù)貢獻(xiàn)獲得額外的平臺(tái)回報(bào)及在平臺(tái)超值消費(fèi)的權(quán)益,這樣可以刺激需求端的消費(fèi)能力進(jìn)而做到供給側(cè)變革。
(二)確保數(shù)據(jù)的真實(shí)性及不可篡改性
數(shù)據(jù)造假主要是通過無效的“用戶”進(jìn)行刷量及篡改數(shù)據(jù)等方式使得數(shù)據(jù)失去其真實(shí)性,變成了具有誤導(dǎo)性的信息。通過定制化部署的北斗區(qū)塊鏈(https://bdqkl-inc.com/)天璣存證系統(tǒng)可以利用區(qū)塊鏈存證的方式,將交易記錄等賬目信息打包成一個(gè)個(gè)的區(qū)塊并進(jìn)行加密,同時(shí)蓋上時(shí)間戳,所有區(qū)塊按時(shí)間戳順序連接成一個(gè)總賬本。并運(yùn)用協(xié)議規(guī)定的密碼機(jī)制進(jìn)行了認(rèn)證,保證不會(huì)被篡改和偽造,因此任何交易雙方之間的價(jià)值交換活動(dòng)都是可以被追蹤和查詢到的。但是如果想要在區(qū)塊鏈中修改“賬本記錄”,需要把整個(gè)鏈條上的加密數(shù)據(jù)進(jìn)行破解和修改,這幾乎是不可能做到的。
此外,另一個(gè)安全的因素是天璣系統(tǒng)利用了區(qū)塊鏈的分布式存儲(chǔ)的方式。即使黑客破解和修改了一個(gè)節(jié)點(diǎn)上的信息,數(shù)據(jù)指紋就會(huì)發(fā)生變化,篡改者需要同時(shí)修改網(wǎng)絡(luò)上超過半數(shù)的系統(tǒng)節(jié)點(diǎn)數(shù)據(jù)才能真正的篡改數(shù)據(jù)。
(三)保護(hù)數(shù)據(jù)的隱私性
傳統(tǒng)的數(shù)據(jù)脫敏是在保留數(shù)據(jù)原始特征的條件下,對(duì)某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。在不違反系統(tǒng)規(guī)則條件下,對(duì)真實(shí)數(shù)據(jù)進(jìn)行改造并提供使用,如身份證號(hào)、手機(jī)號(hào)、卡號(hào)、客戶號(hào)等個(gè)人信息都需要進(jìn)行數(shù)據(jù)脫敏。而在數(shù)金鏈上,通過天璣系統(tǒng)會(huì)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化封裝,所有包含身份證號(hào)、手機(jī)號(hào)以及卡號(hào)等隱私信息全部做真正的脫敏處理(直接刪除不是轉(zhuǎn)化),企業(yè)對(duì)用戶進(jìn)行分析時(shí),使得企業(yè)可以分析用戶的行為偏好和特征等數(shù)據(jù),但無法知道用戶身份等隱私信息。想要觸達(dá)客戶需要通過定制的行為數(shù)據(jù)挖礦任務(wù)推送給客戶。
用戶注冊(cè)時(shí)授權(quán)平臺(tái)可以在接入的生態(tài)合作伙伴APP上搜集個(gè)人的行為數(shù)據(jù),自主參與行為數(shù)據(jù)挖礦的區(qū)塊鏈生態(tài),平臺(tái)通過前端的埋點(diǎn)技術(shù)及對(duì)應(yīng)的任務(wù)記錄系統(tǒng)進(jìn)行跨平臺(tái)的個(gè)人行為數(shù)據(jù)收集,數(shù)據(jù)的內(nèi)容涵蓋用戶實(shí)時(shí)產(chǎn)生和用戶主動(dòng)提交兩大來源,數(shù)據(jù)的分類有過往履歷數(shù)據(jù)、日常消費(fèi)數(shù)據(jù)、行為動(dòng)作數(shù)據(jù)、金融資產(chǎn)數(shù)據(jù)、社交人脈數(shù)據(jù)以及未來在平臺(tái)相關(guān)生態(tài)場景的履約數(shù)據(jù)。每天數(shù)據(jù)進(jìn)行脫敏處理后導(dǎo)出數(shù)據(jù)文本文件獲得各個(gè)接入平臺(tái)文件的hash值和文件大小記錄后壓縮打包再次文件的hash值和文件大小相關(guān)信息記錄到區(qū)塊鏈,這樣就為每天獲得的行為基礎(chǔ)數(shù)據(jù)打上數(shù)據(jù)質(zhì)保標(biāo)簽,確保當(dāng)時(shí)記錄的數(shù)據(jù)可信有序無法篡改。未來基于這些原始的可信數(shù)據(jù)進(jìn)行整理再加工,進(jìn)而服務(wù)建設(shè)數(shù)字經(jīng)濟(jì)新生態(tài),為數(shù)字進(jìn)程中的全球各國貢獻(xiàn)數(shù)金鏈的解決方案。
對(duì)于數(shù)據(jù)而言如何確保數(shù)據(jù)真實(shí)性不可篡改性;有效保障隱私數(shù)據(jù)安全;標(biāo)準(zhǔn)化數(shù)據(jù)指標(biāo);客戶授權(quán)數(shù)據(jù)采集和使用顯得尤為重要,新加坡WOLOT基金會(huì)的創(chuàng)新性技術(shù)解決方案創(chuàng)新細(xì)節(jié)如下:
確保數(shù)據(jù)真實(shí)性不可篡改性
利用天璣系統(tǒng)的功能,通過區(qū)塊鏈技術(shù)記錄每天的系統(tǒng)數(shù)據(jù)導(dǎo)出的指紋(哈希值),若對(duì)應(yīng)的數(shù)據(jù)包有一個(gè)字節(jié)被修改,數(shù)據(jù)指紋就會(huì)發(fā)生變化。
加密哈希函數(shù)的一個(gè)重要特質(zhì)是任何輸入端的細(xì)微變化都會(huì)對(duì)哈希函數(shù)的輸出結(jié)果產(chǎn)生劇烈影響。假設(shè)在上面的圖表中,有人嘗試篡改1號(hào)區(qū)塊中的數(shù)據(jù)。那么,即便有人嘗試對(duì)1號(hào)區(qū)塊里的數(shù)據(jù)進(jìn)行細(xì)微的改寫,也會(huì)使得存儲(chǔ)在2號(hào)區(qū)塊里的1號(hào)區(qū)塊的哈希值產(chǎn)生巨大的變化。接下來,這將導(dǎo)致2號(hào)區(qū)塊的哈希值發(fā)生變化,進(jìn)而影響存儲(chǔ)在下一個(gè)區(qū)塊的哈希值。以此類推,最終整條鏈上的數(shù)據(jù)都會(huì)發(fā)生變化。這種通過凍結(jié)整條鏈條來修改數(shù)據(jù)的方式幾乎是不可能做到的。
標(biāo)準(zhǔn)化數(shù)據(jù)指標(biāo)
通過數(shù)據(jù)涵蓋場景范圍、時(shí)間跨度、行為數(shù)據(jù)數(shù)量、數(shù)據(jù)價(jià)值轉(zhuǎn)換頻次、數(shù)據(jù)可分析個(gè)體數(shù)量等信息來衡量數(shù)據(jù)包的價(jià)值。每天哈希存證記錄的數(shù)據(jù)包可以通過可信程序化自動(dòng)重組。
客戶授權(quán)數(shù)據(jù)采集和使用
符合國際慣例實(shí)現(xiàn)數(shù)據(jù)的個(gè)體主權(quán)、企業(yè)主權(quán)、國家主權(quán),客戶接入生態(tài)就要求授權(quán)平臺(tái)采集和使用,平臺(tái)作為數(shù)據(jù)載體必須將數(shù)據(jù)存儲(chǔ)在對(duì)應(yīng)數(shù)據(jù)貢獻(xiàn)人所在的國境內(nèi)。
目前數(shù)金鏈的生態(tài)體系已經(jīng)接入了國民蛋巢、掌肥貓、斑鳩職業(yè)、幣航、U萌店、i生活等DAPP,整個(gè)生態(tài)的用戶數(shù)量和接入商家迅猛增長,隨著用戶的數(shù)據(jù)沉淀生態(tài)的整體價(jià)值在不斷推升,但任何事物的價(jià)值認(rèn)知都需要一個(gè)再平衡的過程,因?yàn)樵缙诘念A(yù)挖釋放與生態(tài)商家接入生態(tài)轉(zhuǎn)換存在時(shí)間差,數(shù)據(jù)價(jià)值標(biāo)記對(duì)應(yīng)的市場價(jià)值衡量會(huì)存在偏差。
就如同比特幣的披薩日一樣,用2萬的比特幣買了一份披薩的行為在生態(tài)早期一定存在,但是隨著數(shù)據(jù)價(jià)值的再分配和生態(tài)的快速發(fā)展,價(jià)格和價(jià)值一定會(huì)慢慢的重新匹配。數(shù)據(jù)挖礦的本身就是把浪費(fèi)的數(shù)據(jù)資源收集起來,相當(dāng)于用戶通過生態(tài)無償額外獲得的增值收獲,所以參與生態(tài)的用戶應(yīng)該心態(tài)平和,對(duì)于用戶自己更應(yīng)該清楚每天辛苦點(diǎn)擊、購買與瀏覽背后的價(jià)值。有效用戶的時(shí)間就是價(jià)值,在互聯(lián)網(wǎng)上一次有效瀏覽或點(diǎn)擊就是價(jià)值,百度的單位點(diǎn)擊成本(ACP)要3-4元,背后的數(shù)據(jù)價(jià)值更不可計(jì)量,用戶自己可以測算獲得一個(gè)數(shù)據(jù)價(jià)值標(biāo)記背后實(shí)際映射的公允價(jià)值。當(dāng)然在市場供需的再平衡期間,愿意低價(jià)出售數(shù)據(jù)價(jià)值標(biāo)記的用戶也一定會(huì)存在,這就看個(gè)人的判斷了。
有效保障隱私數(shù)據(jù)安全
未來幾年數(shù)據(jù)泄露事件的增長率也許會(huì)達(dá)到100%,除非數(shù)據(jù)在其源頭就能夠得到安全保障。可以說,在未來,每個(gè)財(cái)富500強(qiáng)企業(yè)都會(huì)面臨數(shù)據(jù)攻擊,無論他們是否已經(jīng)做好安全防范。而所有企業(yè),無論規(guī)模大小,都需要重新審視今天的安全定義。在財(cái)富500強(qiáng)企業(yè)中,超過50%將會(huì)設(shè)置首席信息安全官這一職位。企業(yè)需要從新的角度來確保自身以及客戶數(shù)據(jù),所有數(shù)據(jù)在創(chuàng)建之初便需要獲得安全保障,而并非在數(shù)據(jù)保存的最后一個(gè)環(huán)節(jié),僅僅加強(qiáng)后者的安全措施已被證明于事無補(bǔ)。
通過天璣系統(tǒng)會(huì)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化封裝,所有包含身份證號(hào)、手機(jī)號(hào)以及卡號(hào)等隱私信息全部不做記錄和顯示,只有一個(gè)UID和開放平臺(tái)的用戶對(duì)應(yīng),所有流轉(zhuǎn)的數(shù)據(jù)不包括任何隱私信息。此外,只有把UID透過接入的應(yīng)用系統(tǒng)或授權(quán)的管理員,在必須知曉的業(yè)務(wù)場景下,才可通過特定應(yīng)用程序與工具訪問數(shù)據(jù)的真實(shí)值,從而避免隱私數(shù)據(jù)在共享、移動(dòng)時(shí)帶來的信息泄露風(fēng)險(xiǎn)。