怎么學習數(shù)據(jù)挖掘_如何系統(tǒng)地學習數(shù)據(jù)挖掘
學習數(shù)據(jù)挖掘,必須明確自己的發(fā)展方向和目標。很多人對數(shù)據(jù)行業(yè)里發(fā)展方向并不清楚,我們先來說說數(shù)據(jù)行業(yè)的職業(yè)發(fā)展方向。
數(shù)據(jù)行業(yè)從廣義上講可以分為以下幾個職位:
一、數(shù)據(jù)挖掘工程師數(shù)據(jù)挖掘工程師多是通過對海量數(shù)據(jù)進行挖掘,尋找數(shù)據(jù)的存在模式,從而通過數(shù)據(jù)挖掘來解決具體問題。其更多是針對某一個具體的問題,是以解決具體問題為導向的。例如:聚類分析,通過對于會員各種人口統(tǒng)計學、行為數(shù)據(jù)進行分析,對客戶進行分類,更好地理解客戶,知道公司會員是到底如何?高、中、低低價值的客戶構成,既可以后期公司的運營提供指導,提高活動效率,可以指導公司的營銷。
做數(shù)據(jù)挖掘工程, 必須精通數(shù)據(jù)庫。很多時候,你模型的數(shù)據(jù)預處理,可能完成在數(shù)據(jù)庫里完成,你用到的數(shù)據(jù)庫技巧更高。必須要會成熟的數(shù)據(jù)挖掘工具、數(shù)據(jù)挖掘算法,等,當然如果你會一、二款開源軟件,并會寫一些程序代碼那是最好的,大公司都喜歡用開源的軟件。
二、數(shù)據(jù)分析師數(shù)據(jù)分析師更注意是對數(shù)據(jù)、數(shù)據(jù)指標的解讀,通過對數(shù)據(jù)的分析,來解決商業(yè)問題。主要有包括:(1)業(yè)務監(jiān)控:診斷當前業(yè)務是否正常?是否存在問題?業(yè)務發(fā)展是否達到預期?如果沒有達到預期,問主要問題在哪?是什么原因引起的?(2)建立分析體系:這些數(shù)據(jù)分析師已經(jīng)對業(yè)務有一定的理解,對業(yè)務也相對比較熟悉,更多幫業(yè)務方建立一套分析體系,或者更高級是做成數(shù)據(jù)產(chǎn)品。例如:營銷活動。分析師會告訴業(yè)務方,在活動前你應該分析哪些數(shù)據(jù),從而制定恰當?shù)臓I銷計劃。在營銷過程中,你應該看哪些數(shù)據(jù),從而及時做出營銷活動調(diào)整。在營銷活動,應該如何進行活動效果評估以及行業(yè)未來發(fā)展的趨勢分析。
三、商業(yè)分析師。
商業(yè)分析師在行業(yè)、宏觀的層面進行業(yè)務分析,預測未來行業(yè)的發(fā)展,競爭對手的業(yè)務構成,幫助公司制定戰(zhàn)略發(fā)展計劃,并及時跟蹤、分析市場動態(tài),從而及時對戰(zhàn)略進行不斷優(yōu)化。主要技能要求:要熟悉基本的統(tǒng)計分析知識、對于與網(wǎng)站相關的業(yè)務還可能要求掌握等網(wǎng)站分析工具等。
四、數(shù)據(jù)建模師這個職位與數(shù)據(jù)挖掘工程師還是有本質(zhì)區(qū)別的。數(shù)據(jù)建模師,更多偏向于中、小數(shù)據(jù)量,而且其使用更多更多是統(tǒng)計學的方法,數(shù)據(jù)建模師其實很少會提到算法這個詞。但是有時候,這二個模型越來越?jīng)]有明確的分工,一般來說都會二個職位的人都會去學習對方的知識,所以這二個職位有合并的趨勢。
新進入數(shù)據(jù)行業(yè)的同學,可以根據(jù)自己的背景背景選擇相應的職位,學數(shù)據(jù)、統(tǒng)計學的朋友更多可以偏向于建模師,而計算機特別是寫編程好的同學,可以走數(shù)據(jù)挖掘工程師,也許適應性更好,但這不是絕對的。
那么如何學習數(shù)據(jù)挖掘呢?磨刀不誤砍柴工。在學習數(shù)據(jù)挖掘之前應該明白幾點:
數(shù)據(jù)挖掘目前在中國的尚未流行開,猶如屠龍之技。
數(shù)據(jù)初期的準備通常占整個數(shù)據(jù)挖掘項目工作量的70%左右。
數(shù)據(jù)挖掘本身融合了統(tǒng)計學、數(shù)據(jù)庫和機器學習等學科,并不是新的技術。
數(shù)據(jù)挖掘技術更適合業(yè)務人員學習(相比技術人員學習業(yè)務來的更高效)
數(shù)據(jù)挖掘適用于傳統(tǒng)的BI(報表、OLAP等)無法支持的領域。
數(shù)據(jù)挖掘項目通常需要重復一些毫無技術含量的工作。
如果你閱讀了以上內(nèi)容覺得可以接受,那么繼續(xù)往下看。
學習一門技術要和行業(yè)靠攏,沒有行業(yè)背景的技術如空中樓閣。技術尤其是計算機領域的技術發(fā)展是寬泛且快速更替的(十年前做網(wǎng)頁設計都能成立公司),一般人沒有這個精力和時間全方位的掌握所有技術細節(jié)。但是技術在結合行業(yè)之后就能夠獨當一面了,一方面有利于抓住用戶痛點和剛性需求,另一方面能夠累計行業(yè)經(jīng)驗,使用互聯(lián)網(wǎng)思維跨界讓你更容易取得成功。不要在學習技術時想要面面俱到,這樣會失去你的核心競爭力。
一、目前國內(nèi)的數(shù)據(jù)挖掘人員工作領域大致可分為三類。
1)數(shù)據(jù)分析師:在擁有行業(yè)數(shù)據(jù)的電商、金融、電信、咨詢等行業(yè)里做業(yè)務咨詢,商務智能,出分析報告。
2)數(shù)據(jù)挖掘工程師:在多媒體、電商、搜索、社交等大數(shù)據(jù)相關行業(yè)里做機器學習算法實現(xiàn)和分析。
3)科學研究方向:在高校、科研單位、企業(yè)研究院等高大上科研機構研究新算法效率改進及未來應用。