大數(shù)據(jù)分析與數(shù)據(jù)挖掘發(fā)展前景分析
大數(shù)據(jù)分析需要通過(guò)數(shù)據(jù)分析來(lái)發(fā)現(xiàn)現(xiàn)狀,并且通過(guò)模型與預(yù)測(cè)分析技術(shù)來(lái)對(duì)改善進(jìn)行預(yù)測(cè)與優(yōu)化,國(guó)內(nèi),不論是國(guó)企還是民企,真正在業(yè)務(wù)決策中以數(shù)據(jù)分析結(jié)果為依據(jù)的,主要集中在銀行、保險(xiǎn)、電信和電商等幾個(gè)行業(yè)。
大數(shù)據(jù)”時(shí)代到來(lái)了嗎?潮流是一股可笑又可敬的力量:今天,如果打開(kāi)任何媒體,要是不提“大數(shù)據(jù)”,恐怕都不好意思出版。這股潮流,鋪天蓋地,連國(guó)家領(lǐng)導(dǎo)人都不例外。問(wèn)題在于:為什么人人言必稱大數(shù)據(jù)?
數(shù)據(jù)的價(jià)值,隨著數(shù)據(jù)量的幾何級(jí)數(shù)增長(zhǎng),已經(jīng)不再能夠通過(guò)傳統(tǒng)的圖表得以顯現(xiàn),這正是為什么商業(yè)智能還沒(méi)來(lái)得及流行,便已被“數(shù)據(jù)分析”擠下舞臺(tái)。因?yàn)椋瑑r(jià)值隱藏在數(shù)據(jù)中,需要數(shù)據(jù)分析方可釋放這些價(jià)值。
數(shù)據(jù)分析能力的高低,決定了價(jià)值發(fā)現(xiàn)過(guò)程的好壞與成敗??梢哉f(shuō),沒(méi)有數(shù)據(jù)分析,“大數(shù)據(jù)”只是一堆IT庫(kù)存,成本高而收益為零。但是國(guó)內(nèi)熱潮的“大數(shù)據(jù)”概念,目前仍然停留在數(shù)據(jù)收集、整理、存儲(chǔ)和簡(jiǎn)單報(bào)表等幾個(gè)初級(jí)階段。能夠?qū)Υ髷?shù)據(jù)進(jìn)行基本分析和運(yùn)用的,只有少數(shù)幾個(gè)行業(yè)的少數(shù)企業(yè)。
對(duì)于國(guó)內(nèi)數(shù)據(jù)分析市場(chǎng),我們的感覺(jué)如下:
市場(chǎng)巨大,許多企業(yè)(無(wú)論是互聯(lián)網(wǎng)的新銳還是傳統(tǒng)的企業(yè))都在討論這個(gè),也有實(shí)際的需求并愿意為此付錢(qián),但是比較零碎尚不系統(tǒng)化。目前對(duì)數(shù)據(jù)需求最強(qiáng)烈的行業(yè)依此是:金融機(jī)構(gòu)(從基金到銀行到保險(xiǎn)公司到P2P公司),以廣告投放及電商為代表的互聯(lián)網(wǎng)企業(yè)等
尚沒(méi)出現(xiàn)平臺(tái)級(jí)公司的模式(這或許往往是大市場(chǎng)或者大機(jī)會(huì)出現(xiàn)之前的混沌期)
ToB服務(wù)的氛圍在國(guó)內(nèi)尚沒(méi)完全形成,對(duì)于一些有能力的技術(shù)公司,如果數(shù)據(jù)需求強(qiáng)烈的話,考慮到自身能力的健全以及數(shù)據(jù)安全性,往往不會(huì)外包或者采用外部模塊,而傾向于自建這塊業(yè)務(wù)
未來(lái)BAT及京東、58和滴滴打車(chē)等企業(yè),憑借其自身產(chǎn)生的海量數(shù)據(jù),必然是數(shù)據(jù)領(lǐng)域的大玩家。但是整個(gè)行業(yè)很大而且需求旺盛,即使沒(méi)有留給創(chuàng)業(yè)公司出現(xiàn)平臺(tái)級(jí)巨型企業(yè)的機(jī)會(huì),也將留出各種各樣的細(xì)分市場(chǎng)機(jī)會(huì)讓大家可以獲得自己的領(lǐng)地
數(shù)據(jù)沉淀用大白話說(shuō)就是數(shù)據(jù)抓取,目前有四大方式獲取數(shù)據(jù)
網(wǎng)絡(luò)爬蟲(chóng),用Python及Go等開(kāi)發(fā)了自己的爬蟲(chóng)平臺(tái),對(duì)幾十個(gè)網(wǎng)站進(jìn)行每日抓取獲得相關(guān)信息
Wi-Fi接入方案,我們自己開(kāi)發(fā)了一套完整的軟硬件方案,優(yōu)勢(shì)是超高的ROI(投資回報(bào)比),且免費(fèi)提供給物業(yè)管理者,幫助其實(shí)現(xiàn)靠網(wǎng)費(fèi)賺錢(qián)以及推廣費(fèi)賺錢(qián)。在與其協(xié)商的基礎(chǔ)上,獲得用戶數(shù)據(jù)。這主要是OpenWRT的開(kāi)發(fā)以及一些智能硬件和客戶端的開(kāi)發(fā)。
提供一些圖像方面的API,進(jìn)行圖片搜索及人臉?biāo)阉鳎瑵M足客戶在圖像處理和圖像識(shí)別方面的一些需求。開(kāi)發(fā)主要用到一些Machine Learning和Deep Learning的算法,使用C++/Open CV/Matlab等。
數(shù)據(jù)服務(wù)需求方自行提供。
數(shù)據(jù)挖掘用大白話說(shuō),就是利用數(shù)據(jù)分析產(chǎn)生深層次有價(jià)值的理解?;谝陨细鞣N方式獲得的數(shù)據(jù),我們可以做最簡(jiǎn)單的統(tǒng)計(jì)分析、用戶及品牌理解、用戶畫(huà)像、各品牌或各產(chǎn)品型號(hào)之間的關(guān)系等等,了解現(xiàn)在和歷史并爭(zhēng)取預(yù)測(cè)未來(lái)。
常用的工具是Python/R/SPSS等,算法包括最簡(jiǎn)單的統(tǒng)計(jì)、稍微復(fù)雜一些的Machine Learning、現(xiàn)在被捧上天的Deep Learning以及CollaboraTIve Filtering等等。
數(shù)據(jù)呈現(xiàn)
用大白話說(shuō),就是把分析結(jié)果用最美觀和最容易理解的方式(圖標(biāo)或者圖形)展現(xiàn)出來(lái)。目前,我們大概有幾種形式:
網(wǎng)站(兼容PC端和移動(dòng)端):提供給付費(fèi)的B端客戶,不對(duì)外公開(kāi),大致形勢(shì)如下
一個(gè)SaaS的公有云平臺(tái),方便大家把自己的數(shù)據(jù)利用我們的工具來(lái)制作成為便于在網(wǎng)上特別是移動(dòng)端傳播的圖文報(bào)表,即將上線,大致形態(tài)見(jiàn)下圖。產(chǎn)品的邏輯很簡(jiǎn)單:讀數(shù)讀圖的需求越來(lái)越強(qiáng)烈,但是卻缺乏這樣的工具或者平臺(tái)來(lái)制作這樣圖文并茂的內(nèi)容,即使是Excel,也不能制作出適合于網(wǎng)絡(luò)傳播的圖文內(nèi)容
常使用的技術(shù)是JS+Node JS+MongoDB等等。