一文看懂機(jī)器學(xué)習(xí)的相關(guān)問(wèn)題
掃描二維碼
隨時(shí)隨地手機(jī)看文章
這篇文章主要面向的是非專(zhuān)業(yè)的讀者,簡(jiǎn)單直白地介紹了機(jī)器學(xué)習(xí)的概念、內(nèi)涵、以及機(jī)器學(xué)習(xí)的相關(guān)問(wèn)題。對(duì)于專(zhuān)業(yè)人士而言也可以依據(jù)這篇文章對(duì)機(jī)器學(xué)習(xí)的概念做更深入的理解,看看如何向身邊朋友們解釋你所從事的工作。
1. 機(jī)器學(xué)習(xí)意味著從數(shù)據(jù)中學(xué)習(xí),而AI呢是一個(gè)比較炫酷時(shí)髦的詞。
機(jī)器學(xué)習(xí)基于這樣的假設(shè):我們可以通過(guò)將正確的數(shù)據(jù)放到正確的算法中去訓(xùn)練解決一系列復(fù)雜的問(wèn)題。當(dāng)你需要融資或者發(fā)布產(chǎn)品的時(shí)候可以毫不猶豫的稱(chēng)之為人工智能(AI),但是你心里需要明白現(xiàn)在AI是一個(gè)幾乎可以代表一切時(shí)髦用詞。
2. 機(jī)器學(xué)習(xí)包括數(shù)據(jù)和算法,但最主要的部分還是數(shù)據(jù)。
機(jī)器學(xué)習(xí)算法特別是深度學(xué)習(xí)近年來(lái)取得了極大的成功,但是你需要明白的是數(shù)據(jù)才是使機(jī)器學(xué)習(xí)成為可能的關(guān)鍵因素。你可以使用簡(jiǎn)單的算法實(shí)現(xiàn)機(jī)器學(xué)習(xí),但是沒(méi)有好的數(shù)據(jù)你將寸步難行。
3. 如果沒(méi)有大量的數(shù)據(jù),那么你還是安心的使用簡(jiǎn)單的模型吧。
機(jī)器學(xué)習(xí)的任務(wù)是從數(shù)據(jù)中訓(xùn)練出一種模式,探索由參數(shù)定義的模型空間。如果你的參數(shù)空間太大的話(huà),模型就會(huì)在訓(xùn)練數(shù)據(jù)上出現(xiàn)過(guò)擬合,并使得模型失去泛化性。 關(guān)于過(guò)擬合的詳細(xì)解釋需要很多的數(shù)學(xué)推到的,但是你需要記住的是,模型越簡(jiǎn)單越好。
4.機(jī)器學(xué)習(xí)的能力只能到達(dá)訓(xùn)練數(shù)據(jù)所能提供的水平。
“無(wú)用輸入,無(wú)用輸出”很好的反映了機(jī)器學(xué)習(xí)的局限性。機(jī)器學(xué)習(xí)只能在提供的訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)模式,不能夠憑空學(xué)習(xí)出新模式。對(duì)于類(lèi)似分類(lèi)的監(jiān)督學(xué)習(xí)任務(wù)來(lái)說(shuō)你需要魯棒的收集正確標(biāo)注的特征豐富的數(shù)據(jù)來(lái)作為訓(xùn)練數(shù)據(jù)。
5.只要訓(xùn)練數(shù)據(jù)具有代表性的情況下機(jī)器學(xué)習(xí)才會(huì)有效。
就像教課書(shū)中曾經(jīng)教會(huì)我們的一樣“過(guò)去的表現(xiàn)并不是未來(lái)結(jié)果的保障”,機(jī)器學(xué)習(xí)只能在于訓(xùn)練數(shù)據(jù)同分布的數(shù)據(jù)上有效。你需要對(duì)訓(xùn)練數(shù)據(jù)和實(shí)際數(shù)據(jù)之間統(tǒng)計(jì)上的不對(duì)稱(chēng)性保持足夠的警覺(jué),同時(shí)需要保持模型不斷地被訓(xùn)練讓它不落伍。
6.機(jī)器學(xué)習(xí)中最復(fù)雜的工作來(lái)自于數(shù)據(jù)轉(zhuǎn)換。
在閱讀文獻(xiàn)的時(shí)候你會(huì)看到很多眼花繚亂算法,你也許認(rèn)為機(jī)器學(xué)習(xí)最主要的工作便是選擇算法和調(diào)節(jié)參數(shù)。但真實(shí)的情況是:機(jī)器學(xué)習(xí)中需要做的最多的工作就是數(shù)據(jù)清洗和特征工程,你需要將數(shù)據(jù)的原始特征轉(zhuǎn)換到能更好的表示其中信息的新特征上去。
7. 深度學(xué)習(xí)是一項(xiàng)革命性的技術(shù),但卻不是包治百病的靈丹妙藥。
近些年來(lái)深度學(xué)習(xí)被捧上神堂,遠(yuǎn)遠(yuǎn)超過(guò)了其他的機(jī)器學(xué)習(xí)算法。其中的原因之一就是深度學(xué)習(xí)可以自動(dòng)完成傳統(tǒng)機(jī)器學(xué)習(xí)算法中需要特征工程才能實(shí)現(xiàn)的任務(wù),特別是在圖像和聲音數(shù)據(jù)的處理中更是如此。但是我們需要明白深度學(xué)習(xí)不是萬(wàn)金油,你只能在一定的范圍內(nèi)應(yīng)用這項(xiàng)技術(shù),同時(shí)你也需要在數(shù)據(jù)清洗和變換上花上很多的精力才行。
8.機(jī)器學(xué)習(xí)極易受到誤操作的影響。
“機(jī)器學(xué)習(xí)算法不會(huì)殺人,而人類(lèi)卻可能會(huì)自掘墳?zāi)?rdquo;。當(dāng)機(jī)器學(xué)習(xí)算法失效的時(shí)候,很少因?yàn)樗惴ū旧淼牡腻e(cuò)誤,而大多數(shù)情況下卻是人為的錯(cuò)誤造成的。很多情況下你在訓(xùn)練數(shù)據(jù)中不小心引入了認(rèn)為錯(cuò)誤,或者引入了偏差和其他的系統(tǒng)錯(cuò)誤。你需要時(shí)刻保持懷疑的態(tài)度來(lái)使用機(jī)器學(xué)習(xí)算法,并在應(yīng)用的過(guò)程中進(jìn)行嚴(yán)格的檢查。
9.機(jī)器學(xué)習(xí)會(huì)在不經(jīng)意間實(shí)現(xiàn)自我預(yù)言。
在很多機(jī)器學(xué)習(xí)的應(yīng)用中,今天的決策會(huì)影響未來(lái)收集的訓(xùn)練數(shù)據(jù)。一旦機(jī)器算法模型引入了一定的模型偏差,那么它會(huì)持續(xù)的收集新的數(shù)據(jù)不斷強(qiáng)化這一偏差。事實(shí)上有些這樣的偏差確實(shí)會(huì)奪取人寶貴的生命。每一個(gè)機(jī)器學(xué)習(xí)從業(yè)者都要在心中銘記:不要?jiǎng)?chuàng)造自我實(shí)現(xiàn)的預(yù)言!
10. AI不會(huì)擁有自我意識(shí),也不會(huì)崛起摧毀人類(lèi)的。
令人驚訝的是,在機(jī)器學(xué)習(xí)如此普遍的今天,好多人卻依舊用科幻小說(shuō)和電影中的情節(jié)來(lái)定義和認(rèn)識(shí)AI。的確,科幻小說(shuō)可以啟發(fā)人的創(chuàng)造力,但卻不應(yīng)該如此輕信科幻小說(shuō),以致于我們對(duì)真實(shí)的世界產(chǎn)生誤解。今天的世界已經(jīng)有很多需要我們?nèi)リP(guān)注的危險(xiǎn),從別有用心的邪惡的人到無(wú)辜的被濫用的機(jī)器。所以請(qǐng)大家不要再去擔(dān)心“天網(wǎng)”和超級(jí)人工智能的出現(xiàn),而是應(yīng)該用審慎的心態(tài)去看待機(jī)器學(xué)習(xí),讓它更加健康的發(fā)展為人類(lèi)服務(wù)。