機器學習現(xiàn)在可謂是炙手可熱。只要應用機器學習,就可以有效豐富數(shù)據(jù)和知識,促進有價值的任務自動化,包括感知、分類和數(shù)值預測等。而它的“兄弟”——機器發(fā)現(xiàn),可用于發(fā)現(xiàn)照亮和引導人類的新知識。讓我們來探討一下機器學習或者機器發(fā)現(xiàn)的最佳應用場景,以及其對商業(yè)很重要的原因。
多年以前我是一名機器發(fā)現(xiàn)的研究人員,在《機器學習》雜志上發(fā)表過學術論文,也參加過機器學習的相關會議并做過報告,因為機器學習和機器發(fā)現(xiàn)與人類活動類似。作為一名(有經(jīng)驗的)企業(yè)家,經(jīng)常有人問我,對于自動處理某些任務來說,學習方法是否非常重要,這也是促使我寫這篇文章的原因。首先讓我們回顧一些基本概念。
人工智能領域的一個重要想法就是,智力工作可以看作是在“問題空間”內(nèi)的啟發(fā)式搜索,可以幫助找到問題的解決方法。
讓我們想象這樣一個電視里常見的任務場景:重案組探員到達案發(fā)現(xiàn)場,尸體躺在地板上。一個糟糕的偵探拿起電話簿,從第一頁開始依次打電話進行審訊。一個非常糟糕的偵探甚至會認為是太空入侵或逃走的狒狒干了這事,并要求NASA和當?shù)貏游飯@去追尋這些線索。他們這樣的行為就是采用了錯誤的啟發(fā)方法。
一個好的偵探會善于利用正確的啟發(fā)方法,從已存在的問題開始,例如:死亡原因是什么?受害者最后見的人是誰?有仇人嗎?有沒有秘密戀情?欠過債?好的偵探也會從上述答案入手,來更加有效地在大范圍內(nèi)搜索嫌疑犯。偉大的偵探甚至可能想出更加有啟發(fā)性的想法。
“機器發(fā)現(xiàn)”的關鍵點在于發(fā)現(xiàn)就像是另外的智力任務,因此在問題空間中應用的人工智能關鍵啟發(fā)式發(fā)現(xiàn)搜索方法也可應用于機器發(fā)現(xiàn)任務中。
另一方面,“機器學習”的關鍵點在于給予足夠的數(shù)據(jù)和相關結(jié)果,以及一些概念(例如哪些數(shù)據(jù)特征和預測結(jié)果有關系),然后軟件經(jīng)過訓練后也能夠?qū)崿F(xiàn)這種關聯(lián)。經(jīng)典的例子包括使用歷史數(shù)據(jù)來學習如何根據(jù)信用風險對貸款申請進行分類,或者預測顧客的流失。
何為機器學習或機器發(fā)現(xiàn)的最佳應用?
帶著這些關鍵點,我們來考慮具體應用中,哪種設計(發(fā)現(xiàn)或?qū)W習)更好?例如:為大型派對或活動引入客流量。一個好的派對主辦方需要了解客人之間的共同興趣,并努力向他們介紹彼此,解釋他們的共同點,以促進他們之間的交流。這是一項艱巨的任務,因此主辦方都非常忙。憑借一份參與者名單,這種情況能夠自動化嗎?
人工智能或者發(fā)現(xiàn)方法會這樣處理事情:研究或者找出什么可以促成良好的相互介紹。什么決定了(引薦的)質(zhì)量?這是為了核心目的而做出的有創(chuàng)新的介紹方法嗎?哪些數(shù)據(jù)源可以加強這種自動推介(比如LinkedIn簡介或者其他自我介紹)?
然后,就可以生成一些自動介紹,例如:你們?nèi)粠缀踉谕粫r間從同一所大學畢業(yè);或者你們都曾為非洲和平組織服務過;甚至你們兩位是這里唯一知道機器學習的人。
壞的啟發(fā)方法可能會導致:你們都離婚了四次以上(尷尬);或者你們都來自中西部(重點模糊);或者你們的生日都在冬天(不相關)。
我們已經(jīng)討論了機器學習和機器發(fā)現(xiàn)的關鍵點,以及如何實現(xiàn)具體應用。那么我們概括一下:何為機器學習或機器發(fā)現(xiàn)的最佳應用?
機器發(fā)現(xiàn)需要研究任務的邏輯,需要相應的知識,包括該范圍內(nèi)的優(yōu)先路徑,以及使其符合實際的算法設計。這有利于正在搜索的空間和使用的啟發(fā)方法的創(chuàng)新。但是最大的創(chuàng)新或許來源于基于具體輸入而獲得的新穎、有創(chuàng)造性的輸出,因為自動化可以探索比人類實際考慮的還要大得多空間的可能性。
讓我們來看看關于機器發(fā)現(xiàn)引擎的三個例子,其中每個都用編好程序的啟發(fā)式技術盡可能地探索和報道可供人類閱讀的知識。
90年代商業(yè)化的搜索引擎會搜索很多信息文件,利用啟發(fā)式技術(例如頁碼排序,根據(jù)每一份文件的內(nèi)容或者標題的查詢詞確定優(yōu)先級)來給出引文清單,且每個摘錄都動態(tài)地定制為查詢詞的函數(shù)。
2000年左右商業(yè)化的歸類引擎將數(shù)以百計的搜索結(jié)果以分組的形式放入主題文件夾,利用啟發(fā)式技術(比如提取出的主題的語言特性,每一個主題涵蓋多少搜索結(jié)果,將主題劃分為不重疊組的效果如何等)來描述出現(xiàn)在返回的搜索結(jié)果中的主題。
2015年實現(xiàn)商業(yè)化基準化引擎在大型同類群體中發(fā)現(xiàn)其異常表現(xiàn),利用啟發(fā)式技術(例如組合簡潔、合理的屬性,和處理異常類型良好地句型)來輸出能傳達關于目標實體基準化見解的英語段落。
機器發(fā)現(xiàn)的方法也許是:任務輸出結(jié)果并不只是分類或者數(shù)字上的預測。人們寫了很多關于這種任務的書或者文章來教授新人。這里也沒有關于輸入/正確輸出組的豐富數(shù)據(jù),因此要常常說服別人為什么輸入數(shù)據(jù)和任務元認知知識符合特定的輸出。任務元認知知識是孤立的,因此在執(zhí)行任務的時候并不需要一般的常識。
這對于科技商業(yè)來說意味著什么呢?機器學習能使自動化任務實現(xiàn)半自動化從而減少開支。機器學習可以應用于很多數(shù)據(jù)豐富的任務。機器發(fā)現(xiàn)則更強調(diào)需要特定知識和訓練的具體任務,機器發(fā)現(xiàn)往往偏向于手工制作,更加精細和罕見。
你需要大量內(nèi)部或供應商的人工智能專業(yè)知識。供應商會更少,而且他們更關注有深遠影響的具體知識任務,從而確保企業(yè)在經(jīng)濟上可行。供應商不會稱自己為機器發(fā)現(xiàn)公司。與機器學習不同的是,由于機器發(fā)現(xiàn)的公司更少,因此更容易產(chǎn)生市場差異化。
機器學習和機器發(fā)現(xiàn)雖然是親兄弟,但是當它們都成熟以后就會分開。