麻省理工研發(fā)全新技術(shù),ComText讓機(jī)器人學(xué)會(huì)情節(jié)記憶
若要真正做到可以像人一樣交流,機(jī)器人得需要學(xué)會(huì)思考。
Alexa和Siri在一定程度上是可以為我們的生活提供便利的,但他們的幫助非常有限。你可以通過他們訂購(gòu)一件新襯衫或安排一次清潔服務(wù),但你不能要求他們幫你清洗昨天穿過的上衣,或是挑選出你最喜歡的床單。事實(shí)上,這些工作都可以依靠擁有更聰明大腦的機(jī)器人來(lái)完成。
日前,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的一組研究人員創(chuàng)造了一個(gè)與Alexa有著異曲同工之妙的機(jī)器人系統(tǒng)。這個(gè)程序的作用正如它那不太可愛的名字——ComText一樣,讓人類能夠使用自然語(yǔ)言給機(jī)器人下達(dá)命令。研究團(tuán)隊(duì)用一臺(tái)名為Baxter的機(jī)器人測(cè)試了ComText——Baxter主要用于倉(cāng)庫(kù)和工廠,但ComText還可以應(yīng)用于其他類型的機(jī)器人。
教授機(jī)器人自然語(yǔ)言指令,特別是那些使用自然語(yǔ)言的命令,比聽起來(lái)要困難得多。機(jī)器人不具備任何理解情景的能力。如果你把工具放在桌子上,讓機(jī)器人“拿起它”,機(jī)器人并不會(huì)知道“它”是什么。如果你要求它拿起你正在使用的最后一個(gè)工具,它也沒有有能力憑借以前的經(jīng)驗(yàn)而理解這個(gè)新的命令。
但是ComText——Commands in Context(理解性命令)的縮寫,本質(zhì)上來(lái)說(shuō),就是賦予了機(jī)器人心理學(xué)家稱之為“外顯記憶”的能力:能回憶發(fā)生過的事情。該程序有兩種類型的陳述性記憶。一個(gè)稱為語(yǔ)義記憶,是基于實(shí)際,譬如你生日的日期,或者是你在這家公司工作這樣的事實(shí)基礎(chǔ)。
另一種是情景記憶,是基于過去的經(jīng)驗(yàn),來(lái)做出未來(lái)的決定。換句話說(shuō),它是基于語(yǔ)境的——這是ComText賦予機(jī)器人的能力。使用此系統(tǒng)的時(shí)候,如果你要求機(jī)器人拿起你使用過的最后一個(gè)工具,它可以就可以真正地通過它的數(shù)字存儲(chǔ)器(以視頻提要的形式)回憶你以前使用工具的情景,在現(xiàn)實(shí)世界中再次識(shí)別該工具,并把它撿起來(lái)。
即使是在小時(shí)候,人類也總是在自然語(yǔ)言處理過程中使用情景記憶。如果你告訴一個(gè)小孩,“這個(gè)杯子是我的”,然后跟他們說(shuō),“拿起我的杯子”,他們就知道把桌子上的杯子和你聯(lián)系起來(lái),當(dāng)你提到杯子的時(shí)候,他們就會(huì)把它撿起來(lái)。但這需要一個(gè)復(fù)雜的聯(lián)想,對(duì)機(jī)器人來(lái)說(shuō)很困難。“Mine”是一個(gè)抽象的關(guān)系,”麻省理工學(xué)院博士后——羅姆·保羅說(shuō),他是關(guān)于ComText的論文的主要作者,“你無(wú)法建立一個(gè)抽象檢測(cè)器,因?yàn)檫@不能表現(xiàn)在表面。”
但是ComText可以執(zhí)行這種類型的動(dòng)作,像“杯子是我的”一樣的“事實(shí)”被存儲(chǔ)在保羅稱之為“知識(shí)抽屜”的儲(chǔ)存空間中。然后,當(dāng)你要求它“拿起我的杯子”時(shí),機(jī)器人就可以引用該數(shù)據(jù)庫(kù)來(lái)正確識(shí)別哪個(gè)杯子是你的。
ComText是人與機(jī)器人交互的一步,它可以讓人們自然地引用之前的事件和抽象的概念(如所有權(quán))與機(jī)器人交流。例如,如果在祖母的家中有一臺(tái)啟用了ComText的機(jī)器人,那么它就能夠在當(dāng)她讓它拿起包、當(dāng)她摔倒在地板上或是讓它帶她最喜歡的毛衣的時(shí)候做出正確的回應(yīng)。
保羅說(shuō):這兩項(xiàng)匯集在一起,能夠顯著擴(kuò)展我們要求機(jī)器人在自然世界中執(zhí)行的命令。當(dāng)使用Baxter和ComText進(jìn)行測(cè)試時(shí),機(jī)器人在90%的時(shí)間內(nèi)精確地執(zhí)行了命令。
這一點(diǎn)很重要,因?yàn)槿祟惡蜋C(jī)器人在工廠、家庭和道路上的互動(dòng)越來(lái)越多。事實(shí)上,這項(xiàng)研究有一部分是由豐田資助的。情景記憶對(duì)于與自主車輛進(jìn)行交流來(lái)說(shuō)是至關(guān)重要的,你可以發(fā)出命令:“在昨天離開我的同一個(gè)地方接我”,“下午五點(diǎn)在辦公室接我的妻子”,“看到行人步行時(shí)向左轉(zhuǎn)。”所有這些情況都需要根據(jù)情境信息推理自然世界中的互動(dòng)。
ComText的下一步是更高級(jí)別的推論,而且是比拾取和放下物體更復(fù)雜的任務(wù),這都是為Baxter設(shè)計(jì)的。保羅說(shuō),他希望在程序中添加一個(gè)語(yǔ)音組件,以便機(jī)器人和人類可以進(jìn)行對(duì)話,相互詢問問題,以便更好地協(xié)作。他還希望為機(jī)器人的內(nèi)存增加更多的知識(shí),從而實(shí)現(xiàn)更復(fù)雜的任務(wù)和推理。例如,如果你告訴機(jī)器人桌子上有一塊導(dǎo)體鋁塊,那是一個(gè)遙控器,那么如果你以后說(shuō)“給我一個(gè)遙控器”,機(jī)器人就可以把它帶給你。更多的知識(shí)與情景記憶將有助于該程序更好地推斷命令的實(shí)際意義。
這一切都是為了讓人和機(jī)器人更有效地進(jìn)行交流。也許他們不會(huì)直接替代我們進(jìn)行工作——但我們會(huì)一起工作。