麻省理工學(xué)院計(jì)算機(jī)科學(xué)及人工智能實(shí)驗(yàn)室(CSAIL)的研究人員表示,在不久的將來機(jī)器人將能夠通過觸覺來感知物體。近日一篇最新的相關(guān)論文將于下周在加利福尼亞長灘市的計(jì)算機(jī)視覺與模式識(shí)別會(huì)議上公開,這篇論文描述了一種人工智能系統(tǒng),它可以通過觸覺信號(hào)生成觸摸物的視覺形象,還能根據(jù)視覺數(shù)據(jù)來預(yù)測物體的觸感。
“通過觀察物體的表面,我們的模型可以預(yù)測某個(gè)平面或棱角的觸感。通過觸摸物體,我們的人工智能模型可以根據(jù)觸感來構(gòu)建感知到的環(huán)境。將這兩種感知數(shù)據(jù)相結(jié)合,機(jī)器人的性能就會(huì)得到優(yōu)化,它在搬運(yùn)或抓取某個(gè)物體時(shí)所需的數(shù)據(jù)就更少,”CSAIL博士生李昀燭說道,他與他的導(dǎo)師Russ Tedrake、Antonio Torralba以及另一位博士后朱俊彥一起撰寫了本篇論文。
這篇論文的核心干貨到底是什么?
這項(xiàng)跨域建模任務(wù)的主要挑戰(zhàn)在于兩者之間顯著的比例差異:當(dāng)我們的眼睛同時(shí)感知整個(gè)視覺場景時(shí),只能感受到物體的一小部分。為了將視覺和觸覺聯(lián)系起來,研究人員引入了兩個(gè)跨模態(tài)任務(wù):
1)從視覺輸入中合成可信的觸覺信號(hào);
2)從視覺輸入中直接預(yù)測哪個(gè)物體和哪個(gè)部分正在被觸摸;
為了完成此目標(biāo),研究人員構(gòu)建了一個(gè)機(jī)器人系統(tǒng)來自動(dòng)化收集大規(guī)模視覺、觸覺對(duì)的過程。
如圖 1a 所示,機(jī)器人手臂裝有一個(gè)觸覺傳感器,稱為 GelSight,該傳感器由CSAIL的Ted Adelson小組創(chuàng)建。然后,GelSight收集的信息被輸入AI,以便了解視覺和觸覺信息之間的關(guān)系。
為了教AI如何通過觸摸識(shí)別物體,研究人員總共記錄了對(duì) 195 個(gè)不同物體的 12000 次觸摸。每個(gè)觸摸動(dòng)作包含 250 幀的視頻序列,如織物,工具和被觸摸的家用物品。最后產(chǎn)生了 300 萬個(gè)視覺和觸覺對(duì)圖像,AI使用此數(shù)據(jù)集連接觸覺和視覺數(shù)據(jù)用以總結(jié)和完善實(shí)驗(yàn)結(jié)果。
CSAIL博士學(xué)生和主要作者李昀燭在一篇關(guān)于該系統(tǒng)的新論文中說。“通過盲目地觸摸,我們的模型可以純粹通過觸覺來預(yù)測與環(huán)境的相互作用。將這兩種感官結(jié)合在一起可以增強(qiáng)機(jī)器人的能力并減少我們?cè)谏婕安倏v和抓取物體的任務(wù)時(shí)可能需要的數(shù)據(jù)?!?/p>
目前,機(jī)器人只能識(shí)別受控環(huán)境中的物體,這些研究人員指出,目前的數(shù)據(jù)集還非常有限,對(duì)于現(xiàn)有的系統(tǒng)而言,物體的顏色、柔軟度等細(xì)節(jié)還很難預(yù)測。但很顯然他們的研究會(huì)為更多的人機(jī)一體化打下基礎(chǔ),尤其是針對(duì)光線昏暗甚至黑暗密閉空間中的任務(wù)。下一步則將是如何構(gòu)建更大的數(shù)據(jù)集,以便機(jī)器人可以在更多樣化的環(huán)境中工作。