大數(shù)據(jù)并非萬能 認(rèn)清10大誤區(qū)避免投資浪費(fèi)
大數(shù)據(jù)在當(dāng)前的科技新聞中占據(jù)了主導(dǎo)地位,它被吹捧為一切問題的可能的解決方案,從入侵檢測與預(yù)防欺詐,到治療癌癥和設(shè)置最優(yōu)的產(chǎn)品價格。
但我們定義大體量、多格式、高速度的大數(shù)據(jù),并不是能夠搞定每一個問題的靈丹妙藥。事實(shí)上,如果公司迷信周圍的一些大數(shù)據(jù)的神話,可能在錯誤的方向越走越遠(yuǎn),浪費(fèi)大量的時間和金錢,影響公司的市場競爭地位,或者損害公司的聲譽(yù)。
以下是企業(yè)應(yīng)當(dāng)知道的圍繞大數(shù)據(jù)的十個最大的誤區(qū),了解他們將有助于有效地避免大數(shù)據(jù)的消極影響,并真正獲得大數(shù)據(jù)帶來的商業(yè)價值。
誤區(qū)1:只有數(shù)據(jù)科學(xué)家可以處理大數(shù)據(jù)
事實(shí)上,只有數(shù)據(jù)科學(xué)家是不夠的。
“數(shù)據(jù)科學(xué)家本身不能獲取大數(shù)據(jù)的信息,如果你不知道你尋求的首要問題,”Penn Medicine數(shù)據(jù)分析高級總監(jiān)Pat Farrell說。“你需要熟悉的行業(yè)、領(lǐng)域知識的人,了解存在什么樣的問題,有什么見解對這個特定的行業(yè)才是有價值的?!?/p>
例如,Penn Medicine包括衛(wèi)生系統(tǒng)和一所醫(yī)學(xué)學(xué)校。長期以來,衛(wèi)生系統(tǒng)一直在數(shù)據(jù)倉庫收集臨床數(shù)據(jù)。同時,在醫(yī)學(xué)院,新技術(shù)允許人類基因組的測序,這需要一個龐大的數(shù)據(jù)量。
“我們知道有值在哪里,并且我們終于有計(jì)算能力來訪問它,”Farrell說,結(jié)合數(shù)據(jù)分析和醫(yī)學(xué)專業(yè)知識,開辟了預(yù)測醫(yī)療保健的一個全新的領(lǐng)域。
誤區(qū)2 :數(shù)據(jù)越大,價值越大
Farrell表示,收集、貯存數(shù)據(jù)并對其進(jìn)行編目需要時間和資源,不加區(qū)別地收集大量的數(shù)據(jù)可能使得更有價值的項(xiàng)目與這些資源無源。
Farrell建議,公司在開始收集數(shù)據(jù)之前,要對它們的具體指標(biāo)或關(guān)鍵績效指標(biāo)有清晰的認(rèn)識。
誤區(qū)3 :大數(shù)據(jù)為大公司服務(wù)
大公司可能有更多的數(shù)據(jù)來源,但即使是小公司,也可以利用從社交媒體平臺,政府機(jī)構(gòu),以及數(shù)據(jù)供應(yīng)商獲得的數(shù)據(jù)。
“不管組織規(guī)模的大小,基于數(shù)據(jù)的決策總比單純依靠直覺進(jìn)行決策更加靠譜。” 戴爾軟件信息管理解決方案部門的產(chǎn)品管理高級總監(jiān) Darin Bartik說。
小型公司往往比同行的大企業(yè)更少地使用數(shù)據(jù)驅(qū)動的決策,但如果他們這樣做,他們可以更快地修正策略。
誤區(qū)4:現(xiàn)在收集,以后整理
存儲越來越便宜,但它不是免費(fèi)的。總部位于舊金山、基于云計(jì)算的商業(yè)智能廠商Birst的首席執(zhí)行官Brad Peters表示,對于許多公司來說,數(shù)據(jù)增長的速度超過了存儲成本下降的速度。
一些公司認(rèn)為,如果他們只是收集數(shù)據(jù),他們以后會找出這些數(shù)據(jù)的利用之道,但付出大量成本卻毫無價值。事實(shí)上,一些數(shù)據(jù)集適用收益遞減規(guī)律。例如,你進(jìn)行民意測試來預(yù)測選舉結(jié)果。你需要一定數(shù)量的投票人以獲得具有代表性的樣本。但這個數(shù)量達(dá)到某個點(diǎn)之后,增加更多的人不會顯著影響誤差幅度。
而且這不僅涉及存儲成本,Recommind公司信息治理和大數(shù)據(jù)管理全球主管Dean Gonsowski說,該公司總部位于舊金山,專注于非結(jié)構(gòu)化數(shù)據(jù)分析。
例如,數(shù)據(jù)越多,進(jìn)行排序的時間就越長?!爱?dāng)數(shù)十億條記錄入庫,搜索需要花費(fèi)數(shù)小時或數(shù)周?!彼f。
誤區(qū)5 :所有數(shù)據(jù)的都平等
弗吉尼亞州在過去20年一直在收集有關(guān)學(xué)生注冊人數(shù),財政援助和獎勵程度的數(shù)據(jù)。但是,這并不意味著,20年前收集并存儲在相同的數(shù)據(jù)字段中的數(shù)據(jù)一定是相同的數(shù)據(jù)。
“我處理的最大問題是,僅僅因?yàn)樗窃跀?shù)據(jù)字典中,研究人員認(rèn)為這是公平的比賽,”弗吉尼亞州議會高等教育政策研究和數(shù)據(jù)倉庫主管Tod Massa說?!袄纾珹CT和SAT的學(xué)生的考試成績數(shù)據(jù),最初只對本州的學(xué)生收集,然后有一個缺口,然后收集本州和其他州的學(xué)生數(shù)據(jù)。”同樣,不同種族在K - 12級別和在高等教育的數(shù)據(jù)也有所不同。
事實(shí)上,任何特定的數(shù)據(jù),由不同的機(jī)構(gòu),或不同的人,或在不同的時間點(diǎn)報告的,都可能有所不同。
因此,分析師需要具備的不只是統(tǒng)計(jì)技能,而且還要熟悉數(shù)據(jù)的當(dāng)?shù)刂R,和行業(yè)的整體發(fā)展趨勢,如SAT和ACT成績被重新標(biāo)定。
“你不能編程所有這些東西放到一個數(shù)據(jù)倉庫?!盩od Massa說。
這同樣適用于外部的數(shù)據(jù)源,也就是說,很好地使用任何數(shù)據(jù),確實(shí)需要了解這些數(shù)據(jù)收集的文化和背景。
誤區(qū)6 :更具體的預(yù)測更好
人的本性認(rèn)為更具體的東西更準(zhǔn)確,如下午3:12比下午某個時間更準(zhǔn)確。
但事實(shí)正好相反。在許多情況下,更精確的預(yù)測不太可能是準(zhǔn)確的。例如,一個客戶買了一臺特定配置的筆記本電腦,而過去購買該配置筆記本電腦的唯一的客戶,還買了一雙粉紅色的高跟鞋。
“熱門粉紅色高跟鞋的推薦可能很具體,但可能太具體,導(dǎo)致很高的誤差,”位于加利福尼亞州圣莫尼卡的營銷公司Retention Science首席執(zhí)行官Jerry Jao說。
所以,通??雌饋砥恋臇|西,實(shí)際上可能無助于業(yè)務(wù)和營銷管理。
誤區(qū)7:大數(shù)據(jù)等同于Hadoop
Hadoop,針對非結(jié)構(gòu)化數(shù)據(jù)的一個流行的開源架構(gòu),最近已經(jīng)得到了很多關(guān)注。但企業(yè)還有其他的選擇。
“有整個的NoSQL運(yùn)動,”SAP大數(shù)據(jù)總經(jīng)理兼高級副總裁Irfan Khan說?!坝蠱ongoDB,Cassandra等其他完整的技術(shù)?!?/p>
其中有些技術(shù)可能更適合特定的大數(shù)據(jù)項(xiàng)目。尤其是Hadoop的工作原理是將數(shù)據(jù)劃分成多個塊并行處理。此方法適用于許多大數(shù)據(jù)的問題,但不是所有的問題。
“雖然YARN和Hadoop 2解決了一些問題,但有時你需要處理的方式,Hadoop不是理想的選擇,”大數(shù)據(jù)咨詢公司LucidWorks首席技術(shù)官Grant Ingersoll說,“人們需要保持冷靜的頭腦,并決定什么是最適合自己的,而追隨時尚?!?/p>
誤區(qū)8:最終用戶不需要直接訪問大數(shù)據(jù)
大數(shù)據(jù)往往太過復(fù)雜,以至于需要專門的員工來處理。但是,這并不一定如此。
舉個例子來說,由重癥監(jiān)護(hù)病房中的設(shè)備所產(chǎn)生的全部數(shù)據(jù)。心臟速率,呼吸數(shù)據(jù),心電圖讀數(shù)。雖然,很多時候,醫(yī)生和護(hù)士就只能看到病人的當(dāng)前讀數(shù)。
“我看不到在10分鐘前的情況,也不能繪制未來一個小時之內(nèi)的趨向線,”飛利浦醫(yī)療保健患者護(hù)理和臨床信息首席營銷官Anthony Jones表示。
但能夠看到病人的歷史數(shù)據(jù)對于一個醫(yī)生做決定非常有價值。“這些家伙有一個核心的數(shù)據(jù)科學(xué)團(tuán)隊(duì),他們?nèi)鄙僖粋€巨大的機(jī)會,”Jones說。
現(xiàn)在的問題是讓所有不同的設(shè)備生成的數(shù)據(jù)能夠交互,即使它們并非為此設(shè)計(jì),并使用不同的平臺、操作系統(tǒng)和編程語言。一旦你這樣做,醫(yī)生和護(hù)士能夠在需要的時候得到一個有用的數(shù)據(jù)表單。
誤區(qū)9:大問題才用到大數(shù)據(jù)
一家大銀行的首席信息官最近發(fā)表了關(guān)于大數(shù)據(jù)的談話,并被詢問關(guān)于最終用戶自助服務(wù)的問題。
“這位首席信息官說,"我不相信",”Birst首席執(zhí)行官Peters回憶說。
這是一個共同的態(tài)度,他說,一些高管認(rèn)為大數(shù)據(jù)只回答了某些類型的問題。這種態(tài)度可以這樣概括:“我們的大數(shù)據(jù)目標(biāo)是解決極少的高價值的問題,通過核心的數(shù)據(jù)科學(xué)家團(tuán)隊(duì)。我們不希望數(shù)據(jù)混亂,讓普通人有機(jī)會訪問這些信息,因?yàn)槲覀儾徽J(rèn)為他們需要它?!?/p>
Peters不同意這種觀點(diǎn),但表示這常見于很多行業(yè)。“這是大型保險(放心保)公司里面猖獗的神話,但業(yè)務(wù)用戶都沒有足夠的智慧處理它?!?/p>
誤區(qū)10:大數(shù)據(jù)泡沫終將破滅
炒作周期可能來回反復(fù),但技術(shù)始終堅(jiān)持變革?;ヂ?lián)網(wǎng)泡沫的破滅,并非互聯(lián)網(wǎng)終結(jié)的信號。
即使在炒作平靜下來,公司仍將有大數(shù)據(jù)需要處理。事實(shí)上,由于呈指數(shù)增長,他們將有預(yù)計(jì)比以往任何時候更多的大數(shù)據(jù)處理 - IDC預(yù)計(jì),直到2020年,累計(jì)收集的數(shù)據(jù)數(shù)量,每兩年將增加一倍。
并且它不只是公司目前收集的東西。相反,新的數(shù)據(jù)類型可能還會出現(xiàn),需要大量的存儲。
賓夕法尼亞州互動營銷公司Cadient集團(tuán)首席技術(shù)官Bryan Hill表示,認(rèn)為“大數(shù)據(jù)”只是一個階段,企業(yè)可能錯過機(jī)會捕捉到可能對他們的業(yè)務(wù)產(chǎn)生影響的數(shù)據(jù)元素。
“所謂"大數(shù)據(jù)"很可能會改變,就像云計(jì)算和以前的web其實(shí)沒有什么不同,”他說,“這個詞可能會改變,但大數(shù)據(jù)的精神會在里面留下來?!?/p>