自然語言處理一直是人工智能發(fā)展道路上面臨的巨大挑戰(zhàn)。此前,大多數(shù)研究都是讓機器學習模型在大量已標記數(shù)據(jù)集上進行訓練的。最近,百度研究院人員提出了一種全新的方法,研究人員讓人工智能系統(tǒng)通過與「教師」的口語對話來學習自然語言和知識。這種類似嬰兒學習語言過程的方法展現(xiàn)出了很大的潛力。機器之心對該文及其研究論文摘要進行了編譯,原文鏈接見文末。
四月上旬,百度研究團隊通過由虛擬教師(a virtual teacher)發(fā)出自然語言指令,成功地教會了人工智能代理(agent)在迷宮中導航(參閱:用自然語言教育人工智能:百度新算法發(fā)展出 zero-shot 學習能力)。今天,百度研究團隊又很高興地宣布,通過與虛擬老師之間的交互,其人工智能代理成功地學會了說話。
說話,以及其他人類基本能力,在創(chuàng)建通用人工智能的道路上不可或缺。盡管今天與機器進行簡單的交談很常見,但是百度研究團隊教機器說話的方法與傳統(tǒng)方法大不相同。
百度的人工智能代理以一種類似于嬰兒互動的方式學習說話。相反,傳統(tǒng)方法依賴于有監(jiān)督訓練,使用包含大量預搜集訓練集的靜態(tài)語料庫,難以捕捉到語言學習過程中的動態(tài)交互屬性。結(jié)果,通過傳統(tǒng)方法訓練的系統(tǒng)主要反映了數(shù)據(jù)集中的行為,適應性和泛化能力有限。百度的人工智能代理通過交互學習說話,旨在獲取語言學習與理解能力而不僅僅是捕捉到數(shù)據(jù)之中的統(tǒng)計模式。
當一個嬰兒學習說話時,他與人產(chǎn)生交互,并通過模仿和反饋進行學習。嬰兒最初通過模仿其會話者來產(chǎn)生言語行為,掌握字句生成的技巧。嬰兒也會向其父母發(fā)出聲音,并根據(jù)父母的糾正和鼓勵調(diào)節(jié)其言語行為。
研究概述百度研究人員提出了一種基于自然語言學習的交互式方法,其中人工智能代理通過與虛擬教師(教授者)交互、獲得反饋來學習自然語言,從而學習和提高自然語言技能以達到參與對話的程度。在這里,沒有帶標簽數(shù)據(jù)形式的監(jiān)督學習來引導學習者;取而代之的是,系統(tǒng)必須通過不斷嘗試說來學習說話,而教授者會提供口頭反饋(如是/否)和非口頭反饋(如點頭/微笑)。
下圖顯示了訓練中幾種不同形式的對話。在一開始,代理只能生成無意義的句子,它只能在純粹對話中提升自己的技能。而到了最后,代理可以正確運用自然語言回答教授者提出的問題。
另一方面的實驗進一步證明了新方法具備學習自然語言的能力。研究人員證明訓練后的人工智能代理可以回答由已知知識或問題中的概念組成,但經(jīng)過重組后形成的全新問題。例如,在訓練中,「avocado,east」組合從未出現(xiàn)在問答中;而 orange 僅被描述過,從未被教授者問到過。而在測試中,代理可以回答有關(guān)在「east」的「avocado」的問題,或有關(guān)「orange」的問題,如上圖所示。
百度的研究人員表示,他們會在未來進一步增加語言學習環(huán)境的復雜性,以訓練出更為復雜的語言行為。另外,他們還計劃探索機器學習系統(tǒng)的知識建模與快速學習,讓人工智能代理能夠與人類進行自然交互,并讓它可以從物理世界中進行有效的學習。
論文:Listen, Interact and Talk: Learning to Speak via InteracTIon
論文鏈接:https://arxiv.org/abs/1705.09906
摘要:人工智能的一個長期目標是構(gòu)建一種可與人類進行自然語言交互的代理。然而,目前的大部分自然語言學習的研究都依賴大量帶注釋標簽的數(shù)據(jù)集以進行訓練,這導致人工智能代理的任務(wù)變成了外部數(shù)據(jù)集的統(tǒng)計學抓取。由于訓練數(shù)據(jù)本質(zhì)上是由標注者對知識進行的靜態(tài)表述,人工智能代理經(jīng)過學習后的適應性和拓展性受到了限制。此外,這種訓練方法與人類學習自然語言的過程非常不同,后者是一個交流的過程,通過說話和獲得反饋來進行。
在本論文中,我們提出了一種交互形式的自然語言學習方法。其中,人工智能代理通過與教授者(teacher)用自然語言互相交流,從而在談話中學習和提高語言技能。為了達成這個目標,我們構(gòu)建了一個包含模仿和強化學習方法的模型,用以比較句子和教授者的反饋。我們進行了實驗,證明了這種方法的有效性。