怎么學(xué)習(xí)數(shù)據(jù)挖掘_如何系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘
學(xué)習(xí)數(shù)據(jù)挖掘,必須明確自己的發(fā)展方向和目標(biāo)。很多人對(duì)數(shù)據(jù)行業(yè)里發(fā)展方向并不清楚,我們先來(lái)說(shuō)說(shuō)數(shù)據(jù)行業(yè)的職業(yè)發(fā)展方向。
數(shù)據(jù)行業(yè)從廣義上講可以分為以下幾個(gè)職位:
一、數(shù)據(jù)挖掘工程師數(shù)據(jù)挖掘工程師多是通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行挖掘,尋找數(shù)據(jù)的存在模式,從而通過(guò)數(shù)據(jù)挖掘來(lái)解決具體問(wèn)題。其更多是針對(duì)某一個(gè)具體的問(wèn)題,是以解決具體問(wèn)題為導(dǎo)向的。例如:聚類分析,通過(guò)對(duì)于會(huì)員各種人口統(tǒng)計(jì)學(xué)、行為數(shù)據(jù)進(jìn)行分析,對(duì)客戶進(jìn)行分類,更好地理解客戶,知道公司會(huì)員是到底如何?高、中、低低價(jià)值的客戶構(gòu)成,既可以后期公司的運(yùn)營(yíng)提供指導(dǎo),提高活動(dòng)效率,可以指導(dǎo)公司的營(yíng)銷。
做數(shù)據(jù)挖掘工程, 必須精通數(shù)據(jù)庫(kù)。很多時(shí)候,你模型的數(shù)據(jù)預(yù)處理,可能完成在數(shù)據(jù)庫(kù)里完成,你用到的數(shù)據(jù)庫(kù)技巧更高。必須要會(huì)成熟的數(shù)據(jù)挖掘工具、數(shù)據(jù)挖掘算法,等,當(dāng)然如果你會(huì)一、二款開(kāi)源軟件,并會(huì)寫一些程序代碼那是最好的,大公司都喜歡用開(kāi)源的軟件。
二、數(shù)據(jù)分析師數(shù)據(jù)分析師更注意是對(duì)數(shù)據(jù)、數(shù)據(jù)指標(biāo)的解讀,通過(guò)對(duì)數(shù)據(jù)的分析,來(lái)解決商業(yè)問(wèn)題。主要有包括:(1)業(yè)務(wù)監(jiān)控:診斷當(dāng)前業(yè)務(wù)是否正常?是否存在問(wèn)題?業(yè)務(wù)發(fā)展是否達(dá)到預(yù)期?如果沒(méi)有達(dá)到預(yù)期,問(wèn)主要問(wèn)題在哪?是什么原因引起的?(2)建立分析體系:這些數(shù)據(jù)分析師已經(jīng)對(duì)業(yè)務(wù)有一定的理解,對(duì)業(yè)務(wù)也相對(duì)比較熟悉,更多幫業(yè)務(wù)方建立一套分析體系,或者更高級(jí)是做成數(shù)據(jù)產(chǎn)品。例如:營(yíng)銷活動(dòng)。分析師會(huì)告訴業(yè)務(wù)方,在活動(dòng)前你應(yīng)該分析哪些數(shù)據(jù),從而制定恰當(dāng)?shù)臓I(yíng)銷計(jì)劃。在營(yíng)銷過(guò)程中,你應(yīng)該看哪些數(shù)據(jù),從而及時(shí)做出營(yíng)銷活動(dòng)調(diào)整。在營(yíng)銷活動(dòng),應(yīng)該如何進(jìn)行活動(dòng)效果評(píng)估以及行業(yè)未來(lái)發(fā)展的趨勢(shì)分析。
三、商業(yè)分析師。
商業(yè)分析師在行業(yè)、宏觀的層面進(jìn)行業(yè)務(wù)分析,預(yù)測(cè)未來(lái)行業(yè)的發(fā)展,競(jìng)爭(zhēng)對(duì)手的業(yè)務(wù)構(gòu)成,幫助公司制定戰(zhàn)略發(fā)展計(jì)劃,并及時(shí)跟蹤、分析市場(chǎng)動(dòng)態(tài),從而及時(shí)對(duì)戰(zhàn)略進(jìn)行不斷優(yōu)化。主要技能要求:要熟悉基本的統(tǒng)計(jì)分析知識(shí)、對(duì)于與網(wǎng)站相關(guān)的業(yè)務(wù)還可能要求掌握等網(wǎng)站分析工具等。
四、數(shù)據(jù)建模師這個(gè)職位與數(shù)據(jù)挖掘工程師還是有本質(zhì)區(qū)別的。數(shù)據(jù)建模師,更多偏向于中、小數(shù)據(jù)量,而且其使用更多更多是統(tǒng)計(jì)學(xué)的方法,數(shù)據(jù)建模師其實(shí)很少會(huì)提到算法這個(gè)詞。但是有時(shí)候,這二個(gè)模型越來(lái)越?jīng)]有明確的分工,一般來(lái)說(shuō)都會(huì)二個(gè)職位的人都會(huì)去學(xué)習(xí)對(duì)方的知識(shí),所以這二個(gè)職位有合并的趨勢(shì)。
新進(jìn)入數(shù)據(jù)行業(yè)的同學(xué),可以根據(jù)自己的背景背景選擇相應(yīng)的職位,學(xué)數(shù)據(jù)、統(tǒng)計(jì)學(xué)的朋友更多可以偏向于建模師,而計(jì)算機(jī)特別是寫編程好的同學(xué),可以走數(shù)據(jù)挖掘工程師,也許適應(yīng)性更好,但這不是絕對(duì)的。
那么如何學(xué)習(xí)數(shù)據(jù)挖掘呢?磨刀不誤砍柴工。在學(xué)習(xí)數(shù)據(jù)挖掘之前應(yīng)該明白幾點(diǎn):
數(shù)據(jù)挖掘目前在中國(guó)的尚未流行開(kāi),猶如屠龍之技。
數(shù)據(jù)初期的準(zhǔn)備通常占整個(gè)數(shù)據(jù)挖掘項(xiàng)目工作量的70%左右。
數(shù)據(jù)挖掘本身融合了統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)和機(jī)器學(xué)習(xí)等學(xué)科,并不是新的技術(shù)。
數(shù)據(jù)挖掘技術(shù)更適合業(yè)務(wù)人員學(xué)習(xí)(相比技術(shù)人員學(xué)習(xí)業(yè)務(wù)來(lái)的更高效)
數(shù)據(jù)挖掘適用于傳統(tǒng)的BI(報(bào)表、OLAP等)無(wú)法支持的領(lǐng)域。
數(shù)據(jù)挖掘項(xiàng)目通常需要重復(fù)一些毫無(wú)技術(shù)含量的工作。
如果你閱讀了以上內(nèi)容覺(jué)得可以接受,那么繼續(xù)往下看。
學(xué)習(xí)一門技術(shù)要和行業(yè)靠攏,沒(méi)有行業(yè)背景的技術(shù)如空中樓閣。技術(shù)尤其是計(jì)算機(jī)領(lǐng)域的技術(shù)發(fā)展是寬泛且快速更替的(十年前做網(wǎng)頁(yè)設(shè)計(jì)都能成立公司),一般人沒(méi)有這個(gè)精力和時(shí)間全方位的掌握所有技術(shù)細(xì)節(jié)。但是技術(shù)在結(jié)合行業(yè)之后就能夠獨(dú)當(dāng)一面了,一方面有利于抓住用戶痛點(diǎn)和剛性需求,另一方面能夠累計(jì)行業(yè)經(jīng)驗(yàn),使用互聯(lián)網(wǎng)思維跨界讓你更容易取得成功。不要在學(xué)習(xí)技術(shù)時(shí)想要面面俱到,這樣會(huì)失去你的核心競(jìng)爭(zhēng)力。
一、目前國(guó)內(nèi)的數(shù)據(jù)挖掘人員工作領(lǐng)域大致可分為三類。
1)數(shù)據(jù)分析師:在擁有行業(yè)數(shù)據(jù)的電商、金融、電信、咨詢等行業(yè)里做業(yè)務(wù)咨詢,商務(wù)智能,出分析報(bào)告。
2)數(shù)據(jù)挖掘工程師:在多媒體、電商、搜索、社交等大數(shù)據(jù)相關(guān)行業(yè)里做機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)和分析。
3)科學(xué)研究方向:在高校、科研單位、企業(yè)研究院等高大上科研機(jī)構(gòu)研究新算法效率改進(jìn)及未來(lái)應(yīng)用。