在本文中,我將介紹機器學習(ML)建模中的四個主要過程,作為數(shù)據(jù)從業(yè)者,您應該徹底了解這些過程。
機器學習是人工智能的一個分支,它通過揭示數(shù)據(jù)模式(即特征和目標變量之間的關(guān)系)來模擬人類的學習能力。特征是表示給定觀察點或數(shù)據(jù)點的屬性的獨立變量。另一方面,目標變量是一個因變量,我們感興趣的建模作出預測。
機器學習建模是數(shù)據(jù)科學項目生命周期中的一個重要步驟,也是該項目中最有趣的部分之一。
在上一篇文章中,我討論了機器學習的主要組成部分,并提供了機器學習建模的額外介紹。
機器學習建模中的4個關(guān)鍵過程
現(xiàn)在,讓我們深入研究機器學習建模中的四個主要過程。
訓練
這是將機器學習算法與數(shù)據(jù)進行匹配以學習模式的過程,其結(jié)果是創(chuàng)建一個模型。另外,算法的選擇可能會受到基于現(xiàn)有計算能力的訓練時間需求的影響。
在進行進一步試驗之前,訓練過程通常是針對基線模型進行的,作為項目的基準?;€模型可以是一個簡單的算法,例如線性回歸或帶默認設(shè)置的隨機森林算法?;€模型的選擇很大程度上取決于問題和數(shù)據(jù)從業(yè)者的經(jīng)驗。
大多數(shù)機器學習算法通過擬合方法進行訓練。
以下是常用的訓練術(shù)語:
串行訓練: 這種類型的訓練大多在單個處理器上進行,廣泛用于簡單到中等的訓練工作。
分布式訓練:在這里,適合一個算法的工作負載被分解并在多個微處理器之間共享。這就是所謂的并行計算,它有助于加快這一進程。點擊這里查看更多詳情。
離線學習:在這種情況下,對所有可用數(shù)據(jù)定期進行訓練,只有在性能令人滿意時才將模型部署到生產(chǎn)環(huán)境中。
在線學習: 在這里,模型權(quán)重和參數(shù)隨著新的數(shù)據(jù)流的出現(xiàn)而不斷實時更新。
調(diào)優(yōu)
這是選擇最佳超參數(shù)集的過程,給出了最佳模型。這是機器學習建模中最耗時的過程,包括創(chuàng)建幾個具有不同超參數(shù)值集的模型。相關(guān)指標,例如平方平均數(shù)誤差(RMSE)、平均絕對誤差(MAE)和準確度,可用于選擇最佳模型。
在調(diào)優(yōu)過程中需要避免的一個常見缺陷是對此過程使用測試集。相反,需要為此創(chuàng)建并使用驗證集。更妙的是,需要采用交叉驗證等方法來防止過擬合。
Python 中已經(jīng)實現(xiàn)了一些易于使用的模塊,它們可以用于超參數(shù)優(yōu)化,即 GridSearchCV、 Rodd SearchCV 和 BayesSearchCV。
預測
一旦選擇了最佳模型,就可以使用測試數(shù)據(jù)和其他新的數(shù)據(jù)集進行預測,而不需要在模型的輸入數(shù)據(jù)中提供目標變量。這也被稱為機器學習推理。
評估
模型評估是評估機器學習模型預測性能的過程。其主要思想是從模型中量化預測的質(zhì)量。在超參數(shù)優(yōu)化過程中使用的相同指標可以在這里使用,為了結(jié)果表示的目的,也可以添加新的指標。
sklearn有三種不同的API用于評估模型預測的質(zhì)量:
估計器評分方法: 估計器有一種評分方法,為他們設(shè)計要解決的問題提供默認的評估標準。這一點在本次沒有討論,可以通過瀏覽每個估價器的文檔進行學習。
評分參數(shù):使用交叉驗證等模型評估工具(如
model_selection.cross_val_score和model_slection.GridSearchCV)的內(nèi)部評分策略。通過scoring參數(shù)設(shè)置指定評估工具。
度量函數(shù):sklearn.metrics模塊實現(xiàn)用于特定目的的預測誤差評估功能。這些度量在分類度量、多標簽排名度量、回歸度量和聚類度量部分中有詳細說明。
最后,虛擬估值器有助于獲得隨機預測的這些指標的基線值。
評分參數(shù):定義模型評價規(guī)則
使用model_selection等工具進行模型選擇和評估。
model_selection.GridSearchCV 和 model_selection. cross_val_score中使用一個scoring參數(shù)來控制它們應用于評估的估計器的度量。
class sklearn.model_selection.GridSearchCV(estimator, param_grid, *, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score=nan, return_train_score=False)sklearn.model_selection.cross_val_score(estimator, X, y=None, *, groups=None, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', error_score=nan)
常見案例:預定義值
對于最常見的用例,您可以使用scoring參數(shù)指定一個評分器對象;下表顯示了所有可能的值。所有評估器對象都遵循較高返回值優(yōu)于較低返回值的約定。因此,度量模型與數(shù)據(jù)之間距離的度量,例如:
metrics.mean_squared_error,可以用neg_mean_squared_error返回度量的負值,以滿足上面的基本約定。
機器學習是人工智能應用研究較為重要的分支,它的發(fā)展過程大體上可分為4個階段。
第一階段是在20世紀50年代中期到60年代中期,屬于熱烈時期。在這個時期,所研究的是“沒有知識”的學習,即“無知”學習;其研究目標是各類自組織系統(tǒng)和自適應系統(tǒng);其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)以改進系統(tǒng)的執(zhí)行能力,不涉及與具體任務(wù)有關(guān)的知識。指導本階段研究的理論基礎(chǔ)是早在20世紀40年代就開始研究的神經(jīng)網(wǎng)絡(luò)模型。
隨著電子計算機的產(chǎn)生和發(fā)展,機器學習的實現(xiàn)才成為可能。這個階段的研究導致了模式識別這門新科學的誕生,同時形成了機器學習的兩種重要方法,即判別函數(shù)法和進化學習。塞繆爾的下棋程序就是使用判別函數(shù)法的典型例子。不過,這種脫離知識的感知型學習系統(tǒng)具有很大的局限性。無論是神經(jīng)模型、進化學習或是判別函數(shù)法,所取得的學習結(jié)果都很有限,遠不能滿足人們對機器學習系統(tǒng)的期望。
機器學習
第二階段在20世紀60年代中期至70年代中期,稱為機器學習的冷靜時期。本階段的研究目標是模擬人類的概念學習過程,并采用邏輯結(jié)構(gòu)或者圖結(jié)構(gòu)作為機器內(nèi)部描述。機器能夠采用符號來描述概念(符號概念獲取),并提出關(guān)于學習概念的各種假設(shè)。
本階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學習系統(tǒng)和海斯?羅思(Hayes Roth)等的基于亞輯的歸納學習系統(tǒng)。雖然這類學習系統(tǒng)取得較大的成功,但只能學習單一概念,而且未能投人實際應用。此外,神經(jīng)網(wǎng)絡(luò)學習因為理論缺陷未能達到預期效果,機器學習的研究轉(zhuǎn)入低潮。
第三階段從20世紀70年代中期至80年代中期,稱為復興時期,在這個時期,人們從學習單個概念擴展到學習多個概念,探索不同的學習策略和各種學習方法。機器的學習過程一般都建立在大規(guī)模的知識庫上,實現(xiàn)知識強化學習。龍其令人鼓舞的是,本階段已開始把學習系統(tǒng)與各種應用結(jié)合起來,并取得很大的成功,促進了機器學習的發(fā)展。
在出現(xiàn)第一個專家學習系統(tǒng)之后,示例歸約學習系統(tǒng)成為研究主流,自動知識獲取成為機器學習的應用研究目標。1980年,在美國卡內(nèi)基梅隆大學(CMU)召開了第一屆機器學習國際研討會,標志著機器學習研究已在全世界興起。此后,機器歸納學習進人應用,1988年,國際雜志《機器學習》(Machine Learning)創(chuàng)刊,迎來了機器學習蓬勃發(fā)展的新時期。
機器學習
機器學習的最新階段始于1986年,一方面,由于神經(jīng)網(wǎng)絡(luò)研究的重新興起,對連接機制(connectionism)學習方法的研究方興未艾,機器學習的研究已在全世界范圍內(nèi)出現(xiàn)新的高潮,對機器學習的基本理論和綜合系統(tǒng)的研究得到加強和發(fā)展。
另一方面,實驗研究和應用研究得到前所未有的重視。人工智能技術(shù)和計算機技術(shù)快速發(fā)展,為機器學習提供了新的更強有力的研究手段和環(huán)境。具體地說,在這一時期符號學習由“無知”學習轉(zhuǎn)向有專門領(lǐng)域知識的增長型學習,因面出現(xiàn)了有一定知識背景的分析學習,神經(jīng)網(wǎng)絡(luò)由于隱節(jié)點和反向傳播算法的進展,使連接機制學習東山再起,向傳統(tǒng)的得號學習發(fā)起挑戰(zhàn),基于生物發(fā)有進化論的進化學習系統(tǒng)和遺傳算法,因吸取了歸納學習與連接機制學習的長處面受到重視。
基于行為主義(actionism)的增強(reinforcement)學習系統(tǒng)因發(fā)展新算法和應用連接機制學習遺傳算法的新成就而顯示出新的生命力,1989年瓦特金(Watkins)提出Q-學習,促進了增強學習的深入研究。
機器學習是人工智能應用研究較為重要的分支,它的發(fā)展過程大體上可分為4個階段。
第一階段是在20世紀50年代中期到60年代中期,屬于熱烈時期。在這個時期,所研究的是“沒有知識”的學習,即“無知”學習;其研究目標是各類自組織系統(tǒng)和自適應系統(tǒng);其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)以改進系統(tǒng)的執(zhí)行能力,不涉及與具體任務(wù)有關(guān)的知識。指導本階段研究的理論基礎(chǔ)是早在20世紀40年代就開始研究的神經(jīng)網(wǎng)絡(luò)模型。
隨著電子計算機的產(chǎn)生和發(fā)展,機器學習的實現(xiàn)才成為可能。這個階段的研究導致了模式識別這門新科學的誕生,同時形成了機器學習的兩種重要方法,即判別函數(shù)法和進化學習。塞繆爾的下棋程序就是使用判別函數(shù)法的典型例子。不過,這種脫離知識的感知型學習系統(tǒng)具有很大的局限性。無論是神經(jīng)模型、進化學習或是判別函數(shù)法,所取得的學習結(jié)果都很有限,遠不能滿足人們對機器學習系統(tǒng)的期望。
機器學習進入新階段的重要表現(xiàn)在下列方面:
(1)機器學習已成為新的邊緣學科并在高校形成一門課程。它合應用心理學,生物學和神經(jīng)生理學以及數(shù)學,自動化和計算機科學形成機器學習的理論基礎(chǔ)。
(2)結(jié)合各種學習方法,取長補短的多種形式的集成學習系統(tǒng)研究正在興起。
(3)機器學習與人工智能各種基礎(chǔ)問題的統(tǒng)一性觀點正在形成,例如學習與問題求解結(jié)合進行、知識表達便于學習的觀點產(chǎn)生了通用智能系統(tǒng)SOAR的組塊學習。
(4)各種學習方法的應用范圍不斷擴大,一部分已形成商品。歸納學習的知識獲取工具已在診斷分類型專家系統(tǒng)中廣泛使用。
(5)數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的研究已形成熱潮,并在生物醫(yī)學、金融管理、商業(yè)銷售等領(lǐng)域得到成功應用,給機器學習注入新的活力。
(6)與機器學習有關(guān)的學術(shù)活動空前活躍。國際上除每年一次的機器學習研討會外,還有計算機學習理論會議以及遺傳算法會議。
免責聲明:部分文章和信息來源于互聯(lián)網(wǎng),不代表本訂閱號贊同其觀點和對其真實性負責。