在本文中,我闡述了數(shù)據(jù)科學家的各種角色,以及數(shù)據(jù)科學如何與機器學習,深度學習,人工智能,統(tǒng)計學,物聯(lián)網(wǎng),運籌學和應用數(shù)學等相關領域進行比較和重疊。 由于數(shù)據(jù)科學是一門廣泛的學科,我首先描述在任何商業(yè)環(huán)境中可能遇到的不同類型的數(shù)據(jù)科學家:您甚至可能發(fā)現(xiàn)自己是一名數(shù)據(jù)科學家,而不知道它。 與任何科學學科一樣,數(shù)據(jù)科學家可以借用相關學科的技術,盡管我們已經(jīng)開發(fā)了自己的工具庫,特別是技術和算法,以自動方式處理非常大的非結構化數(shù)據(jù)集,即使沒有人工交互,也可以實時執(zhí)行交易 或者做出預測。
1.不同類型的數(shù)據(jù)科學家
要開始并獲得一些歷史觀點,您可以閱讀我在2014年發(fā)表的關于9種數(shù)據(jù)科學家的文章,或者我的文章,其中我將數(shù)據(jù)科學與16個分析學科進行了比較,也發(fā)表于2014年。
在同一時期發(fā)布的以下文章仍然有用:
數(shù)據(jù)科學家與數(shù)據(jù)架構師
數(shù)據(jù)科學家與數(shù)據(jù)工程師
數(shù)據(jù)科學家與統(tǒng)計學家
數(shù)據(jù)科學家與業(yè)務分析師
最近(2016年8月)Ajit Jaokar討論了Type A(Analytics)與B類(Builder)數(shù)據(jù)科學家:
A型數(shù)據(jù)科學家可以很好地編碼以處理數(shù)據(jù),但不一定是專家。 A型數(shù)據(jù)科學家可能是實驗設計,預測,建模,統(tǒng)計推斷或統(tǒng)計部門通常教授的其他事項的專家。一般而言,數(shù)據(jù)科學家的工作產(chǎn)品不是“p值和置信區(qū)間”,因為學術統(tǒng)計有時似乎表明(例如,有時對于在制藥行業(yè)工作的傳統(tǒng)統(tǒng)計學家而言)。在谷歌,A型數(shù)據(jù)科學家被稱為統(tǒng)計學家,定量分析師,決策支持工程分析師或數(shù)據(jù)科學家,可能還有一些。
B型數(shù)據(jù)科學家:B代表建筑。 B類數(shù)據(jù)科學家與A類有一些統(tǒng)計背景,但他們也是非常強大的編碼員,可能是訓練有素的軟件工程師。 B類數(shù)據(jù)科學家主要關注“在生產(chǎn)中”使用數(shù)據(jù)。他們構建與用戶互動的模型,通常提供推薦(產(chǎn)品,您可能知道的人,廣告,電影,搜索結果)。來源:點擊這里。
我還寫了關于業(yè)務流程優(yōu)化的ABCD,其中D代表數(shù)據(jù)科學,C代表計算機科學,B代表商業(yè)科學,A代表分析科學。數(shù)據(jù)科學可能涉及也可能不涉及編碼或數(shù)學實踐,您可以在我的關于低級別數(shù)據(jù)科學與高級數(shù)據(jù)科學的文章中閱讀。在創(chuàng)業(yè)公司中,數(shù)據(jù)科學家通常會戴上幾個帽子,如執(zhí)行,數(shù)據(jù)挖掘,數(shù)據(jù)工程師或架構師,研究員,統(tǒng)計學家,建模師(如預測建模)或開發(fā)人員。
雖然數(shù)據(jù)科學家通常被描述為在R,Python,SQL,Hadoop和統(tǒng)計數(shù)據(jù)方面經(jīng)驗豐富的編碼器,但這只是冰山一角,受數(shù)據(jù)營的歡迎,專注于教授數(shù)據(jù)科學的某些元素。但就像實驗室技術人員可以稱自己為物理學家一樣,真正的物理學家遠不止于此,她的專業(yè)領域也各不相同:天文學,數(shù)學物理學,核物理學(邊緣化學),力學,電氣工程,信號處理(也是數(shù)據(jù)科學的一個子領域)等等。關于數(shù)據(jù)科學家也可以這樣說:生物信息學,信息技術,模擬和質量控制,計算金融,流行病學,工業(yè)工程,甚至數(shù)論都是各種各樣的領域。
就我而言,在過去的十年中,我專注于機器對機器和設備到設備的通信,開發(fā)系統(tǒng)來自動處理大型數(shù)據(jù)集,執(zhí)行自動交易:例如,購買互聯(lián)網(wǎng)流量或自動生成內容。它意味著開發(fā)適用于非結構化數(shù)據(jù)的算法,它處于AI(人工智能)IoT(物聯(lián)網(wǎng))和數(shù)據(jù)科學的交叉點。這被稱為深度數(shù)據(jù)科學。它是相對無數(shù)學的,它涉及相對較少的編碼(主要是API),但它是相當數(shù)據(jù)密集型(包括構建數(shù)據(jù)系統(tǒng))并基于專門為此上下文設計的全新統(tǒng)計技術。
在此之前,我實時進行了信用卡欺詐檢測。在我的職業(yè)生涯早期(大約1990年),我從事圖像遙感技術,除了其他方面,以確定衛(wèi)星圖像中的圖案(或形狀或特征,例如湖泊)和執(zhí)行圖像分割:當時我的研究被標記為計算統(tǒng)計數(shù)據(jù),但人們在我家大學隔壁的計算機科學系做同樣的事情,稱他們研究人工智能。今天,它被稱為數(shù)據(jù)科學或人工智能,子域是信號處理,計算機視覺或物聯(lián)網(wǎng)。
此外,數(shù)據(jù)科學家可以在數(shù)據(jù)科學項目的生命周期,數(shù)據(jù)收集階段或數(shù)據(jù)探索階段的任何地方找到,一直到統(tǒng)計建模和維護現(xiàn)有系統(tǒng)。
2.機器學習與深度學習在深入研究數(shù)據(jù)科學與機器學習之間的聯(lián)系之前,讓我們簡要討論機器學習和深度學習。機器學習是一組算法,它們訓練數(shù)據(jù)集以進行預測或采取行動以優(yōu)化某些系統(tǒng)。例如,基于歷史數(shù)據(jù),監(jiān)督分類算法用于根據(jù)貸款目的將潛在客戶分類為好的或壞的潛在客戶。對于給定任務(例如,監(jiān)督聚類)所涉及的技術是變化的:樸素貝葉斯,SVM,神經(jīng)網(wǎng)絡,集合,關聯(lián)規(guī)則,決策樹,邏輯回歸或許多的組合。有關算法的詳細列表,請單擊此處。有關機器學習問題的列表,請單擊此處。
所有這些都是數(shù)據(jù)科學的一個子集。當這些算法自動化時,如自動駕駛或無駕駛汽車,它被稱為AI,更具體地說,深度學習。點擊此處查看另一篇文章,將機器學習與深度學習進如果收集的數(shù)據(jù)來自傳感器,并且如果它是通過互聯(lián)網(wǎng)傳輸?shù)模敲礄C器學習或數(shù)據(jù)科學或深度學習應用于物聯(lián)網(wǎng)。
有些人對深度學習有不同的定義。他們認為深度學習是具有更深層的神經(jīng)網(wǎng)絡(機器學習技術)。最近在Quora上提出了這個問題,下面是一個更詳細的解釋(來源:Quora)
AI(人工智能)是計算機科學的一個子領域,創(chuàng)建于20世紀60年代,它關注的是解決對人類而言容易但對計算機來說很難的任務。特別是,所謂的強人工智能將是一個可以做任何事情的系統(tǒng)(也許沒有純粹的物理事物)。這是非常通用的,包括各種任務,例如計劃,在世界各地移動,識別對象和聲音,說話,翻譯,進行社交或商業(yè)交易,創(chuàng)造性工作(制作藝術或詩歌)等。
NLP(自然語言處理)只是人工智能的一部分,與語言(通常是書面的)有關。
機器學習關注的一個方面是:給定一些可以用離散術語描述的AI問題(例如,從一組特定的動作中,哪一個是正確的動作),并給出關于世界的大量信息,圖什么是“正確”的行動,沒有程序員編程。通常需要一些外部過程來判斷行動是否正確。在數(shù)學術語中,它是一個函數(shù):你輸入一些輸入,并且你希望它產(chǎn)生正確的輸出,所以整個問題只是以某種自動的方式建立這個數(shù)學函數(shù)的模型。為了區(qū)分AI,如果我能編寫一個非常聰明的程序,它具有類似人類的行為,它可以是AI,但除非它的參數(shù)是從數(shù)據(jù)中自動學習的,否則它不是機器學習。
深度學習是一種現(xiàn)在非常流行的機器學習。它涉及一種特定類型的數(shù)學模型,可以被認為是某種類型的簡單塊(函數(shù)組合)的組合,并且其中一些塊可以被調整以更好地預測最終結果。
機器學習和統(tǒng)計學有什么區(qū)別?
本文試圖回答這個問題。作者寫道,統(tǒng)計數(shù)據(jù)是機器學習,其中包含預測或估計量的置信區(qū)間。我傾向于不同意,因為我建立了工程友好的置信區(qū)間,不需要任何數(shù)學或統(tǒng)計知識。
3.數(shù)據(jù)科學與機器學習機器學習和統(tǒng)計是數(shù)據(jù)科學的一部分。機器學習中的單詞學習意味著算法依賴于一些數(shù)據(jù),用作訓練集,以微調一些模型或算法參數(shù)。這包括許多技術,例如回歸,樸素貝葉斯或監(jiān)督聚類。但并非所有技術都適用于此類別。例如,無監(jiān)督聚類 - 統(tǒng)計和數(shù)據(jù)科學技術 - 旨在檢測聚類和聚類結構,而無需任何先驗知識或訓練集來幫助分類算法。需要人來標記發(fā)現(xiàn)的聚類。一些技術是混合的,例如半監(jiān)督分類。一些模式檢測或密度估計技術適合此類別。
數(shù)據(jù)科學不僅僅是機器學習。數(shù)據(jù)科學中的數(shù)據(jù)可能來自也可能不來自機器或機械過程(調查數(shù)據(jù)可以手動收集,臨床試驗涉及特定類型的小數(shù)據(jù)),它可能與我剛剛討論過的學習無關。但主要區(qū)別在于數(shù)據(jù)科學涵蓋了整個數(shù)據(jù)處理范圍,而不僅僅是算法或統(tǒng)計方面。特別是,數(shù)據(jù)科學也包括在內
數(shù)據(jù)集成
分布式架構
自動化機器學習
數(shù)據(jù)可視化
儀表板和BI
數(shù)據(jù)工程
在生產(chǎn)模式下部署
自動化,數(shù)據(jù)驅動的決策
當然,在許多組織中,數(shù)據(jù)科學家只關注這一過程的一部分