機器學習有四種廣受認可的形式:監(jiān)督式、無監(jiān)督式、半監(jiān)督式和強化式。在研究文獻中,這些形式得到了深入的探討。它們也被納入了大多數(shù)機器學習算法的入門課程。下表對這四種形式作了總結。
但一個并不廣為人知的概念是機器學習策略,即以創(chuàng)造性的方式,運用基本的機器學習算法,解決現(xiàn)實世界問題。我對這些策略產(chǎn)生了濃厚的興趣。在這篇文章中,我將探討四種策略:在線學習、遷移學習、集成學習和深度學習。好在,這四項策略適用于表格中任意一種機器學習形式。
一、在線學習
在線學習使用瞬息萬變的數(shù)據(jù)。這類模型跟著數(shù)據(jù)及時更新,并不存儲先前的數(shù)據(jù)。有的在線學習算法還會“適應”,即隨時調(diào)整模型,跟隨或追蹤數(shù)據(jù)的變化。具體而言,它們會逐漸“遺忘”過時數(shù)據(jù),從而適用于環(huán)境/模型隨時變動的應用程序。批量(或離線)學習使用靜態(tài)的數(shù)據(jù),可以充當在線學習的熱身。在批量學習中,模型一次性完成所有數(shù)據(jù)的學習。很多在線學習算法使用一個批量/離線算法(以一小批數(shù)據(jù)為基礎),為模型作啟動前的熱身。這種做法可以顯著加快算法的收斂(convergence)速度。
二、遷移學習
遷移學習將一個領域的知識應用到另一個領域。它將舊的數(shù)據(jù)、模型和參數(shù)用于新問題的解決,對于機器學習模型的終身學習而言至關重要。遷移學習是人與生俱來的能力。舉個例子,我們會將已經(jīng)掌握的語言知識(詞匯、語法等),應用到新語言的學習中。兩種語言越是接近,知識遷移就越簡單。
三、集成學習
單學習器模型只用一個學習器(算法),而集成學習使用多個學習器。一般的集成算法包含梯度提升、引導聚集、決策森林、堆棧集成和超級學習器。集成學習可以結合相對較弱(很多情況下,預測精度只略高于隨機猜測)的學習器,產(chǎn)生強大、準確的模型。
四、深度學習
深度學習包含多個層,可以學習數(shù)據(jù)的層級化或多尺度特征。與之相對的是“淺層學習”,即簡單地運用普通的機器學習建模算法。通常,淺層學習離不開特征工程(feature engineering),以保障輸入以適當?shù)男问匠尸F(xiàn)給模型,而深度學習在訓練時,就自然而然地學會了這些特征。
在用機器學習算法解決日常業(yè)務難題時,機器學習策略是我們要考慮的又一個方面。