機器學習的四種方法
機器學習的方法主要包括以下四種:
監(jiān)督學習:在監(jiān)督學習中,系統(tǒng)會被給定一組已知輸入和輸出,需要學習到一種函數(shù),使得該函數(shù)能夠根據(jù)給定的輸入預測出正確的輸出。代表算法有線性回歸、邏輯回歸、決策樹、深度神經(jīng)網(wǎng)絡等。
無監(jiān)督學習:在無監(jiān)督學習中,系統(tǒng)只有輸入數(shù)據(jù),沒有輸出數(shù)據(jù),需要學習到一種函數(shù),使得該函數(shù)能夠將輸入數(shù)據(jù)自動分類。代表算法有聚類算法,如K-Means;以及密度估計算法等。
半監(jiān)督學習:半監(jiān)督學習是一種混合監(jiān)督學習和無監(jiān)督學習的方法。在半監(jiān)督學習中,系統(tǒng)會被給定一部分已知輸入和輸出的樣本數(shù)據(jù)和一部分未知的輸入數(shù)據(jù),需要利用已知的樣本數(shù)據(jù)來學習,使得該函數(shù)能夠根據(jù)未知的輸入數(shù)據(jù)預測出正確的輸出。13
強化學習:強化學習是一種基于環(huán)境和反饋的學習方法。系統(tǒng)在不斷的交互中學習到最優(yōu)策略。代表算法包括Q-Learning以及時間差學習(Temporal difference learning)等。
以上四種方法各有特點和應用場景,選擇哪種方法取決于具體的問題和需求。
在這種學習模式下,輸入數(shù)據(jù)作為對模型的反饋,不像監(jiān)督模型那樣,輸入數(shù)據(jù)僅僅是作為一個檢查模型對錯的方式,在強化學習下,輸入數(shù)據(jù)直接反饋到模型,模型必須對此立刻作出調整。常見的應用場景包括動態(tài)系統(tǒng)以及機器人控制等。常見算法包括Q-Learning以及時間差學習(Temporal difference learning)。
3. 非監(jiān)督式學習
在非監(jiān)督式學習中,數(shù)據(jù)并不被特別標識,學習模型是為了推斷出數(shù)據(jù)的一些內在結構。常見的應用場景包括關聯(lián)規(guī)則的學習以及聚類等。常見算法包括Apriori算法以及k-Means算法。
4.半監(jiān)督式學習
在此學習方式下,輸入數(shù)據(jù)部分被標識,部分沒有被標識,這種學習模型可以用來進行預測,但是模型首先需要學習數(shù)據(jù)的內在結構以便合理的組織數(shù)據(jù)來進行預測。應用場景包括分類和回歸,算法包括一些對常用監(jiān)督式學習算法的延伸,這些算法首先試圖對未標識數(shù)據(jù)進行建模,在此基礎上再對標識的數(shù)據(jù)進行預測。如圖論推理算法(Graph Inference)或者拉普拉斯支持向量機(Laplacian SVM.)等。
二、13種常用算法
根據(jù)算法的功能和形式的類似性,我們可以把算法分類,比如說基于樹的算法,基于神經(jīng)網(wǎng)絡的算法等等。當然,機器學習的范圍非常龐大,有些算法很難明確歸類到某一類。
1.回歸算法
回歸算法是試圖采用對誤差的衡量來探索變量之間的關系的一類算法。回歸算法是統(tǒng)計機器學習的利器。在機器學習領域,人們說起回歸,有時候是指一類問題,有時候是指一類算法,這一點常常會使初學者有所困惑。常見的回歸算法包括:最小二乘法(Ordinary Least Square),邏輯回歸(Logistic Regression),逐步式回歸(Stepwise Regression),多元自適應回歸樣條(Multivariate Adaptive Regression Splines)以及本地散點平滑估計(Locally Estimated Scatterplot Smoothing)。
2. 正則化方法
正則化方法是其他算法(通常是回歸算法)的延伸,根據(jù)算法的復雜度對算法進行調整。正則化方法通常對簡單模型予以獎勵而對復雜算法予以懲罰。常見的算法包括:Ridge Regression, Least Absolute Shrinkage and Selection Operator(LASSO),以及彈性網(wǎng)絡(Elastic Net)。
3.決策樹學習
決策樹算法根據(jù)數(shù)據(jù)的屬性采用樹狀結構建立決策模型, 決策樹模型常常用來解決分類和回歸問題。常見的算法包括:分類及回歸樹(Classification And Regression Tree, CART), ID3 (Iterative Dichotomiser 3), C4.5, Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 隨機森林(Random Forest), 多元自適應回歸樣條(MARS)以及梯度推進機(Gradient Boosting Machine, GBM)
機器學習的方法主要有以下幾種:
監(jiān)督學習: 監(jiān)督學習是機器學習中最常見的方法之一,在監(jiān)督學習中,系統(tǒng)會被給定一組已知輸入和輸出的樣本數(shù)據(jù),系統(tǒng)需要學習到一種函數(shù),使得該函數(shù)能夠根據(jù)給定的輸入預測出正確的輸出。
無監(jiān)督學習: 無監(jiān)督學習是機器學習中另一種常見的方法。在無監(jiān)督學習中,系統(tǒng)只有輸入數(shù)據(jù),沒有輸出數(shù)據(jù)。系統(tǒng)需要學習到一種函數(shù),使得該函數(shù)能夠將輸入數(shù)據(jù)自動分類。
半監(jiān)督學習: 半監(jiān)督學習是一種混合監(jiān)督學習和無監(jiān)督學習的方法。在半監(jiān)督學習中,系統(tǒng)會被給定一部分已知輸入和輸出的樣本數(shù)據(jù)和一部分未知的輸入數(shù)據(jù),系統(tǒng)需要利用已知的樣本數(shù)據(jù)來學習到一種函數(shù),使得該函數(shù)能夠根據(jù)未知的輸入數(shù)據(jù)預測出正確的輸出。
強化學習: 強化學習是一種基于環(huán)境和反饋的學習方法,系統(tǒng)在不斷的交互中學習到最優(yōu)策略。
聚類:聚類是機器學習中的一種無監(jiān)督學習方法,它的目的是將數(shù)據(jù)分成不同的群體,使得群體內的數(shù)據(jù)相似性最大,群體間的數(shù)據(jù)相似性最小。
降維: 降維是機器學習中的一種無監(jiān)督學習方法,它的目的是降低數(shù)據(jù)的維度,使得數(shù)據(jù)更容易被分析。
深度學習: 深度學習是機器學習中一種基于神經(jīng)網(wǎng)絡的學習方法,它通過構建多層神經(jīng)網(wǎng)絡來模擬人類大腦進行學習。深度學習在計算機視覺、語音識別、自然語言處理等領域有著廣泛的應用。
遞歸神經(jīng)網(wǎng)絡: 遞歸神經(jīng)網(wǎng)絡是一種特殊的深度學習方法,它通過遞歸的方式來處理序列數(shù)據(jù),在自然語言處理、語音識別等領域有著廣泛的應用。
貝葉斯學習: 貝葉斯學習是一種基于概率論和統(tǒng)計學的學習方法,它通過貝葉斯定理來進行學習和預測。
統(tǒng)計學習方法: 統(tǒng)計學習方法是一類基于統(tǒng)計學理論的機器學習方法,它通過統(tǒng)計學模型和優(yōu)化算法來進行學習和預測。包括線性回歸、邏輯回歸、樸素貝葉斯等。
這些方法都有其特點和適用范圍,在實際應用中要根據(jù)問題具體情況來選擇合適的方法。