為什么人機(jī)對(duì)話很難實(shí)現(xiàn)

時(shí)間：2020-05-31 20:33:01

關(guān)鍵字：人工智能機(jī)器人

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 在清華x-lab主辦的人工智能研習(xí)社第五講，三角獸的創(chuàng)始人、COO馬宇馳如此描述當(dāng)前的人機(jī)交互產(chǎn)品。在同日舉辦的百度2017世界大會(huì)上，李彥宏的觀點(diǎn)與馬不謀而合：“我們現(xiàn)在看到很多智能

在清華x-lab主辦的人工智能研習(xí)社第五講，三角獸的創(chuàng)始人、COO馬宇馳如此描述當(dāng)前的人機(jī)交互產(chǎn)品。

在同日舉辦的百度2017世界大會(huì)上，李彥宏的觀點(diǎn)與馬不謀而合：“我們現(xiàn)在看到很多智能音箱，雖然不需要按住，但是需要一個(gè)喚醒詞，一般是四個(gè)字，這不符合人與人交互方式。我跟你說(shuō)話的時(shí)候不需要拉你的手，也不需要每句話都叫你的名字，更不需要每次都叫四個(gè)字。”

在清華的演講中馬宇馳表示，目前市面上人機(jī)交互的智能硬件，距離真正的交互還需要至少8-10年時(shí)間。各大發(fā)布會(huì)上自然交互，甚至有些可以接受訪談的機(jī)器人，一定有某些人工的介入，噱頭頗多。

而作為人機(jī)交互最重要的應(yīng)用場(chǎng)景之一，搜索引擎與人類最自然的交互方式依然有很大不同。“比如我們?nèi)绻榻裉斓奶鞖?，到百度可以直接搜索“北京天氣”，但跟人說(shuō)話肯定不能這樣，跟同學(xué)說(shuō)“北京天氣”，別人會(huì)以為這個(gè)人有病，要說(shuō)今天出去穿羽絨服冷不冷這樣的話，這部分叫自然語(yǔ)言處理。在之前的一次大會(huì)上有一個(gè)智能領(lǐng)域的科學(xué)家說(shuō)語(yǔ)義是人工智能皇冠上最后一顆“明珠”，因?yàn)槿斯ぶ悄軐W(xué)會(huì)了語(yǔ)義才真正接近于人的思考方式和回應(yīng)的方式?！瘪R宇馳稱。

那么人機(jī)對(duì)話這件事為什么難？深度學(xué)習(xí)等AI技術(shù)又能從中做些什么？在清華x-lab的人工智能研習(xí)社課程中，三角獸創(chuàng)始人兼CEO 王卓然博士在馬宇馳之后解釋了這些疑惑。

以下為王卓然演講，大數(shù)據(jù)文摘在不改變?cè)獾那疤嵯掠袆h改：

人機(jī)對(duì)話這件事為什么難？

一些名詞大家應(yīng)該耳熟能詳，像深度學(xué)習(xí)、增強(qiáng)學(xué)習(xí)、自然語(yǔ)言處理、信息檢索、數(shù)據(jù)挖掘。最底層的技術(shù)模塊，像決策過(guò)程、推薦系統(tǒng)、知識(shí)庫(kù)、邏輯推理、分類等等，可以看到機(jī)器學(xué)習(xí)和自然語(yǔ)言處理幾乎每一個(gè)模塊都會(huì)用到，人機(jī)對(duì)話涉及到方方面面。人機(jī)對(duì)話這個(gè)大的領(lǐng)域其實(shí)是人工智能的下一代，叫做認(rèn)知智能。認(rèn)知智能就是人怎么去感知世界，怎么去理解世界，然后用機(jī)器去模擬它，去擬合它，再用一個(gè)接近人的方式來(lái)反饋給我們。所以它涉及的面太廣了，只是單純說(shuō)人機(jī)對(duì)話這個(gè)子問(wèn)題都可以另外定義出好多子問(wèn)題。所以我們只是把這些基礎(chǔ)的模塊、基礎(chǔ)的算法包裝成我們內(nèi)部通用的模塊，像開放域的聊天檢索式問(wèn)答、深度問(wèn)答、圖文對(duì)話的引擎等等等等，然后我們對(duì)外輸出的產(chǎn)品，有開放域聊天，有問(wèn)答的引擎，問(wèn)答引擎的意思就是客戶把他的問(wèn)題和答案灌進(jìn)來(lái)，我自動(dòng)支持基于問(wèn)題庫(kù)的問(wèn)答，我們還有多輪對(duì)話的引擎，可以不依賴于領(lǐng)域。比如說(shuō)找電影、找歌、找餐館用的是同一套引擎，只是把不同的數(shù)據(jù)、本題庫(kù)、知識(shí)結(jié)構(gòu)導(dǎo)進(jìn)去，讓它支持一個(gè)領(lǐng)域的對(duì)話，我們還可以把它打包在一起，變成多域的對(duì)話系統(tǒng)。所以如果做人機(jī)對(duì)話，基本上自然語(yǔ)言處理、機(jī)器學(xué)習(xí)里所有的事都要融會(huì)貫通。

人機(jī)對(duì)話的幾大核心問(wèn)題

1）開放域聊天

平時(shí)我們和人說(shuō)話有不同的場(chǎng)景用不同形式對(duì)話，或者說(shuō)用不同的方式去思考，比如說(shuō)開放域的聊天，沒(méi)有目的、不是為了找到一個(gè)信息，或者說(shuō)不是為了完成一個(gè)任務(wù)來(lái)去對(duì)話，而是朋友之間的寒喧、互相的問(wèn)候，這種就叫開放域聊天。

2）多輪對(duì)話

這個(gè)更接近于人機(jī)的對(duì)話，和人與人的對(duì)話也有一定相似處。比如我們要找一個(gè)餐館，我會(huì)問(wèn)找五道口的餐廳，機(jī)器會(huì)問(wèn)喜歡什么口味，我說(shuō)川菜的，又問(wèn)對(duì)環(huán)境有沒(méi)有要求，我說(shuō)有沒(méi)有適合朋友聚餐有沒(méi)有大的包房，這是機(jī)器多輪對(duì)話完成的。

3）智能問(wèn)答

智能問(wèn)答這個(gè)概念比較好理解，這個(gè)技術(shù)也相對(duì)于另兩個(gè)更久遠(yuǎn)一些，也更成熟一些，問(wèn)答就是一問(wèn)一答，我問(wèn)你天空為什么是藍(lán)的，你給我解釋說(shuō)什么空氣的折射等等一些因素，我問(wèn)兔子真的愛(ài)吃胡蘿卜嗎，你可以回答兔子都愛(ài)吃胡蘿卜，但不是全部，這是人機(jī)對(duì)話不可或缺的一部分。

這三部分之間是互相沒(méi)有聯(lián)系的，在目前的技術(shù)框架下，開放域聊天有開放域聊天的做法，垂直領(lǐng)域有垂直領(lǐng)域的做法，問(wèn)答是問(wèn)答的做法，做產(chǎn)品不能只做一個(gè)用戶的問(wèn)答或者一個(gè)聊天，這些東西要整合在一起，于是就出現(xiàn)了跨域的中控概念。以度秘平臺(tái)為例來(lái)講，這個(gè)平臺(tái)既可以支持閑聊，也可以支持找電影，找歌，找餐館，查快遞，支持問(wèn)答，甚至更多的技能，開窗、開燈等等，這是由單獨(dú)一個(gè)服務(wù)模塊來(lái)完成的。但是用戶說(shuō)出一句話之后，這句話到底應(yīng)該歸哪個(gè)模塊去響應(yīng)，這就是中控去做的一個(gè)事，其實(shí)就是根據(jù)你的上下文，根據(jù)你的每個(gè)域回復(fù)結(jié)果質(zhì)量的情況綜合算出用戶這句話有哪一個(gè)服務(wù)區(qū)響應(yīng)最好。

相關(guān)性是開放域聊天最重要的一個(gè)指標(biāo)。我說(shuō)一句話之后機(jī)器回了一句與我相關(guān)的話，不相關(guān)就沒(méi)有辦法再聊下去了。在這個(gè)基礎(chǔ)之上，我們要注重幾個(gè)點(diǎn)，一個(gè)是上下文的覆蓋，人與人聊天是有上下文的，不是你說(shuō)一句我說(shuō)一句，每一句是單獨(dú)割裂的，而今上下文的覆蓋已經(jīng)做得很好了，達(dá)到了40%的上下文覆蓋，可以體驗(yàn)到40%的聯(lián)系。

深度學(xué)習(xí)等人工智能技術(shù)可以做什么？

上下文引入進(jìn)來(lái)之后整個(gè)的數(shù)據(jù)會(huì)非常的稀疏，所以我們用了深度學(xué)習(xí)進(jìn)行自然語(yǔ)言處理，最大的幫助就是可以把離散的詞，離散的句子，離散的篇章等等表示成一個(gè)向量，這個(gè)向量在分布式的語(yǔ)義空間中就可以計(jì)算它的相似度、相關(guān)性等等這些指標(biāo)。我們就用深度學(xué)習(xí)這個(gè)方法把上下文的整個(gè)信息都表示成了向量，再用向量檢索向量的方式去找你說(shuō)這句話的上下文、語(yǔ)義或者語(yǔ)境更相似的上下文，再用同樣的方法檢索獲得侯選。

另一塊是緊密情感，人和人聊天不可能是冰冷的你一句話我一句話中性的，肯定夾雜很多高興、開心、傷感、鄙視的情緒等在網(wǎng)上的表情標(biāo)簽。把這個(gè)引入當(dāng)中就會(huì)讓聊天更生動(dòng)有趣。這塊我們做了一個(gè)嘗試，我們通過(guò)這個(gè)數(shù)據(jù)興起迭代的方法，用的還是很標(biāo)準(zhǔn)的CNN，只是我們數(shù)據(jù)加工、數(shù)據(jù)處理做了很多工作，能達(dá)到99%的準(zhǔn)確率，用一句話去識(shí)別它對(duì)應(yīng)的情緒，可能是開心、大笑等等，識(shí)別這個(gè)情緒能達(dá)到99%。

人機(jī)對(duì)話獲取數(shù)據(jù)的來(lái)源都是互聯(lián)網(wǎng)，互聯(lián)網(wǎng)有一個(gè)問(wèn)題，在互聯(lián)網(wǎng)上人和人聊天的句子偏成人化，肯定不適合兒童。舉個(gè)例子，我說(shuō)床前明月光，這個(gè)機(jī)器人可能回應(yīng)地下鞋兩雙，每個(gè)字也沒(méi)有什么問(wèn)題，也不涉及黃反，但整個(gè)句子的對(duì)兒童這么聊肯定不合適的。我們?cè)趺丛诨ヂ?lián)網(wǎng)這個(gè)語(yǔ)料上去過(guò)濾出一個(gè)兒童版本呢？首先用檢索是不現(xiàn)實(shí)的，因?yàn)槟悴荒鼙ＷC每一句話、每一個(gè)字，只要有一句話或者一個(gè)字不適合這個(gè)產(chǎn)品就毀掉了。所以我們用了學(xué)術(shù)界比較火的端對(duì)端生成的聊天方式。它的訓(xùn)練語(yǔ)料是用成人語(yǔ)料，我們用能拿到的動(dòng)畫片的字?；蛘邇和瘯?，用這個(gè)訓(xùn)練一個(gè)模型，用這個(gè)模型過(guò)濾成人語(yǔ)料，在這之后又訓(xùn)練端對(duì)端的模型，過(guò)濾完之后就可以認(rèn)為不適合兒童的東西是小概率事件了，相當(dāng)于我們寫出了對(duì)兒童絕對(duì)安全的一版聊天。

我一直在研究垂直領(lǐng)域?qū)υ捪到y(tǒng)的泛化，什么叫泛化？在垂直領(lǐng)域?qū)υ捄茈y獲得，在網(wǎng)上抓數(shù)據(jù)的話也很難找到很貼切的人和人對(duì)話，或者人和任何東西對(duì)話，比如找電影，找餐館這種數(shù)據(jù)很難獲得。既然這么難獲得，我們?nèi)绻羞@樣的一個(gè)系統(tǒng)，用這個(gè)系統(tǒng)已經(jīng)迭代學(xué)到很多東西之后，再把這個(gè)知識(shí)遷移到另一個(gè)領(lǐng)域。而且，問(wèn)答跟人機(jī)對(duì)話完全不是一回事，問(wèn)答更多是信息檢索的過(guò)程，匹配用戶的問(wèn)題和庫(kù)里的問(wèn)題是不是同一個(gè)意思，然后反饋答案。

講座后，現(xiàn)場(chǎng)聽(tīng)眾與王卓然進(jìn)行了對(duì)話。

提問(wèn)：今天百度的大會(huì)發(fā)了一款RavenH，比較有趣的一點(diǎn)是有可以拆卸的觸摸屏，發(fā)布者提到，現(xiàn)在市場(chǎng)上voice only的方式不太符合自然習(xí)慣，那未來(lái)人機(jī)交互是單純以語(yǔ)音為主還是多種結(jié)合起來(lái)的形式？

王卓然：人機(jī)交互這個(gè)形式，要分場(chǎng)景，最合適的場(chǎng)景當(dāng)然是一個(gè)多模態(tài)交互，因?yàn)槎嗄B(tài)交互是人機(jī)對(duì)話的下一個(gè)進(jìn)階的階段，人機(jī)對(duì)話只考慮語(yǔ)音，如果是多模態(tài)的話，要考慮到屏幕、觸控、圖像識(shí)別、環(huán)境傳感器、位置等等。所以要分場(chǎng)景，不能較真，人機(jī)對(duì)話多模式場(chǎng)景比純機(jī)器交互要好，很多場(chǎng)景下不具備多模態(tài)交互能力，比如說(shuō)在車載的時(shí)候有屏幕的引入可能會(huì)造成負(fù)擔(dān)，對(duì)行車安全也有危害，純語(yǔ)音交互才是更好的場(chǎng)景，所以不同的場(chǎng)景不同的應(yīng)用。

提問(wèn)：剛才聽(tīng)了您的介紹非常精彩，我有一個(gè)問(wèn)題，現(xiàn)在大家做語(yǔ)音處理和語(yǔ)義處理分得比較開，事實(shí)上在人說(shuō)話的過(guò)程中語(yǔ)言不僅包括聲音，還包括像語(yǔ)調(diào)、語(yǔ)氣等等，但是好像市面上沒(méi)有看見(jiàn)有人做語(yǔ)調(diào)、語(yǔ)氣這方面的東西，語(yǔ)義大部分處理的是文本，您怎么看待這個(gè)問(wèn)題，語(yǔ)音、語(yǔ)調(diào)和語(yǔ)氣角度有價(jià)值嗎？如果有價(jià)值為什么大家都沒(méi)做，做的話難點(diǎn)在哪里？

王卓然：非常好的問(wèn)題，從學(xué)術(shù)角度上來(lái)講有非常大的價(jià)值，單純看文本一句話可能有兩個(gè)意思，我沒(méi)吃飯，我沒(méi)吃飯？一個(gè)是疑問(wèn)句一個(gè)是陳述句，代表的意思就不一樣了。但是為什么沒(méi)做呢，道理很簡(jiǎn)單，還沒(méi)成熟到那個(gè)程度，商業(yè)到產(chǎn)品落地還差太遠(yuǎn)，還沒(méi)有達(dá)到非要為這個(gè)事做一款產(chǎn)品，或者沒(méi)有這個(gè)事就做不了產(chǎn)品的程度。

提問(wèn)：我想問(wèn)之前談商業(yè)模式的時(shí)候是做B2B、B2C，你們是永遠(yuǎn)做男人背后的“女人”呢？還是慢慢推出產(chǎn)品面對(duì)C端用戶呢？

王卓然：對(duì)用戶市場(chǎng)對(duì)我們非常有吸引力的，但是從公司發(fā)展角度來(lái)看，這個(gè)階段嘗試C端的代價(jià)太大了，而且我們團(tuán)隊(duì)結(jié)構(gòu)也不是為2C準(zhǔn)備的，所以在短期之內(nèi)都不會(huì)做這方面的事情。

提問(wèn)：剛才您講給小孩訓(xùn)練一個(gè)模型，過(guò)濾到不合適的問(wèn)答。想請(qǐng)您詳細(xì)解釋一下這種過(guò)濾方式。

王卓然：我們用故事書、字幕等等去訓(xùn)練了類似于語(yǔ)言模型的分類器。用這個(gè)東西去過(guò)濾網(wǎng)上成人聊天的每一句話，把不適合兒童的都濾掉，我們認(rèn)為剩下的它的分布會(huì)跟字幕、故事書訓(xùn)練分布是相似的，詞匯分布、表達(dá)形式等等會(huì)跟兒童的表達(dá)形式更相似一些。在這個(gè)基礎(chǔ)之上我們?cè)偃ビ?xùn)練這個(gè)模型。

提問(wèn)：您剛才講的人機(jī)交互的話多模態(tài)情況下最好，我不知道理解對(duì)不對(duì)。比如人在溝通的時(shí)候，除了剛才說(shuō)的聲音、語(yǔ)料，包括說(shuō)話內(nèi)容，實(shí)際有很多肢體語(yǔ)言，下一代的人機(jī)交互會(huì)不會(huì)把語(yǔ)音包括視覺(jué)整個(gè)結(jié)合起來(lái)，這樣才叫下一代的方式？

王卓然：會(huì)的，人機(jī)對(duì)話在國(guó)外學(xué)術(shù)界火過(guò)一段時(shí)間，之后好多人機(jī)對(duì)話轉(zhuǎn)向多模態(tài)研究。表情、肢體語(yǔ)言加上語(yǔ)言，包括物體識(shí)別所有都在一起做人機(jī)對(duì)話，背后的技術(shù)，現(xiàn)在引入多個(gè)環(huán)節(jié)，物體識(shí)別等等是多維度，這后面有決策過(guò)程。如果對(duì)這個(gè)感興趣可以關(guān)注兩個(gè)大學(xué)的研究，一個(gè)是CMU，他們有一個(gè)人機(jī)交互的實(shí)驗(yàn)室，人機(jī)對(duì)話做的也比較久，有很多人也做多模態(tài)的交互。另一個(gè)是愛(ài)丁堡赫瑞?瓦特，剛開始是做人機(jī)對(duì)話，后來(lái)他們轉(zhuǎn)向多模態(tài)的交互了。

提問(wèn)：剛才您說(shuō)公司應(yīng)用場(chǎng)景其中有一個(gè)是IoT，是智能終端。這個(gè)在終端上用的話，您認(rèn)為都是聯(lián)網(wǎng)的通過(guò)云的處理方式呢，還是說(shuō)我也可以去本地去用。如果是云的話涉及到很多場(chǎng)景，包括并發(fā)性的問(wèn)題，有沒(méi)有考慮像有一些東西是現(xiàn)在有一個(gè)趨勢(shì)，把很多的算法固化成硬件。

王卓然：語(yǔ)義這塊負(fù)擔(dān)不太重，都是B到T這個(gè)級(jí)別，不像圖像傳輸非常重。固化到端我們有嘗試，跟華為海思有合作，那是支持NLP的，端對(duì)端聊天生成，語(yǔ)義理解幾個(gè)RN結(jié)構(gòu)，因?yàn)閳D象涉及很多東西，比如說(shuō)實(shí)時(shí)的加工，實(shí)時(shí)的渲染，實(shí)時(shí)的分析，實(shí)時(shí)性圖像本身傳輸有問(wèn)題的情況下。文本層面最大的考慮其實(shí)是隱私，不是你說(shuō)的云的負(fù)擔(dān)問(wèn)題。