自然語言和三維姿態(tài)模型結合,AI研究者將文字轉成肢體語音
卡內(nèi)基梅隆大學(Carnegie Mellon University)的人工智能研究人員發(fā)明了一種人工智能代理,能夠?qū)⑽淖洲D化成身體動作。這種方法被稱為Joint Language-to-Pose,或JL2P,它將自然語言與三維姿態(tài)模型相結合。
JL2P動畫目前僅限于簡筆畫,但將文字翻譯成類似人類動作的能力有朝一日可以幫助類人機器人在現(xiàn)實世界中執(zhí)行物理任務,或幫助創(chuàng)意人員為視頻游戲或電影等制作虛擬人物動畫。
JL2P能夠做一些比如走路或跑步,演奏樂器(如吉他或小提琴),遵循方向指示(左或右),或控制速度(快或慢)的動作。這項研究最初發(fā)布于arXiv.org上的一篇論文,并且將于9月19日在魁北克舉行的3D視覺國際會議上由CMU語言技術研究所的研究員柴坦雅·阿胡亞(Chaitanya Ahuja)與合作者共同發(fā)表。
“我們首先根據(jù)完整的指令來預測動作序列從而優(yōu)化模型,”論文寫道。這個簡單的任務可以幫助模型學習非常短的姿勢序列,比如走路時的腿部動作、揮手時的手部動作和彎曲時的軀干動作。研究人員聲稱,與SRI國際研究人員2018年提出的最先進的人工智能相比,JL2P在人體運動建模方面有9%的提升。
據(jù)了解,JL2P使用KIT動作語言數(shù)據(jù)集進行訓練。該數(shù)據(jù)集由德國高性能仿人技術公司(High Performance Humanoid Technologies)于2016年推出,將人體運動與自然語言描述相結合,將長達11小時的人類運動記錄映射到大約6200多個以8個單詞成一句的英語句子中。