值得研究的四大機器學習策略分析

時間：2020-06-23 11:57:02

關鍵字：機器學習深度學習

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 機器學習有四種廣受認可的形式：監(jiān)督式、無監(jiān)督式、半監(jiān)督式和強化式。在研究文獻中，這些形式得到了深入的探討。它們也被納入了大多數(shù)機器學習算法的入門課程。下表對這四種形式作了總結。

機器學習有四種廣受認可的形式：監(jiān)督式、無監(jiān)督式、半監(jiān)督式和強化式。在研究文獻中，這些形式得到了深入的探討。它們也被納入了大多數(shù)機器學習算法的入門課程。下表對這四種形式作了總結。

但一個并不廣為人知的概念是機器學習策略，即以創(chuàng)造性的方式，運用基本的機器學習算法，解決現(xiàn)實世界問題。我對這些策略產(chǎn)生了濃厚的興趣。在這篇文章中，我將探討四種策略：在線學習、遷移學習、集成學習和深度學習。好在，這四項策略適用于表格中任意一種機器學習形式。

一、在線學習

在線學習使用瞬息萬變的數(shù)據(jù)。這類模型跟著數(shù)據(jù)及時更新，并不存儲先前的數(shù)據(jù)。有的在線學習算法還會“適應”，即隨時調(diào)整模型，跟隨或追蹤數(shù)據(jù)的變化。具體而言，它們會逐漸“遺忘”過時數(shù)據(jù)，從而適用于環(huán)境/模型隨時變動的應用程序。批量(或離線)學習使用靜態(tài)的數(shù)據(jù)，可以充當在線學習的熱身。在批量學習中，模型一次性完成所有數(shù)據(jù)的學習。很多在線學習算法使用一個批量/離線算法(以一小批數(shù)據(jù)為基礎)，為模型作啟動前的熱身。這種做法可以顯著加快算法的收斂(convergence)速度。

二、遷移學習

遷移學習將一個領域的知識應用到另一個領域。它將舊的數(shù)據(jù)、模型和參數(shù)用于新問題的解決，對于機器學習模型的終身學習而言至關重要。遷移學習是人與生俱來的能力。舉個例子，我們會將已經(jīng)掌握的語言知識(詞匯、語法等)，應用到新語言的學習中。兩種語言越是接近，知識遷移就越簡單。

三、集成學習

單學習器模型只用一個學習器(算法)，而集成學習使用多個學習器。一般的集成算法包含梯度提升、引導聚集、決策森林、堆棧集成和超級學習器。集成學習可以結合相對較弱(很多情況下，預測精度只略高于隨機猜測)的學習器，產(chǎn)生強大、準確的模型。

四、深度學習

深度學習包含多個層，可以學習數(shù)據(jù)的層級化或多尺度特征。與之相對的是“淺層學習”，即簡單地運用普通的機器學習建模算法。通常，淺層學習離不開特征工程(feature engineering)，以保障輸入以適當?shù)男问匠尸F(xiàn)給模型，而深度學習在訓練時，就自然而然地學會了這些特征。

在用機器學習算法解決日常業(yè)務難題時，機器學習策略是我們要考慮的又一個方面。