人形機(jī)器人爆發(fā)前夜,英偉達(dá)助力突破技術(shù)瓶頸
在這兩天召開(kāi)的2025年世界機(jī)器人大會(huì),成了人形機(jī)器人們技能比拼的賽場(chǎng)。它們競(jìng)相登臺(tái),跳舞、踢球、寫(xiě)毛筆字、當(dāng)售貨員...無(wú)所不能,我們仿佛置身科幻電影之中。很多人篤信,具身智能即將實(shí)現(xiàn)從0到1的突破,迎來(lái)自己的ChatGPT時(shí)刻。然而,技術(shù)瓶頸讓這一愿景仍需時(shí)日。NVIDIA、宇樹(shù)科技和銀河通用等領(lǐng)軍力量,正在攻克模型、數(shù)據(jù)和硬件三大卡點(diǎn),力圖讓通用人形機(jī)器人成為現(xiàn)實(shí)。
我們有幸參加了英偉達(dá)在WRC期間召開(kāi)的媒體活動(dòng),NVIDIA高級(jí)副總裁Rev Lebaredian、宇樹(shù)科技創(chuàng)始人王興興以及銀河通用創(chuàng)始人王鶴分享了他們對(duì)人形機(jī)器人規(guī)?;逃玫亩匆?jiàn)。他們一致認(rèn)為,人形機(jī)器人不僅承載著人工智能從“信息世界”邁向“物理世界”的宏大愿景,更有望撬動(dòng)數(shù)萬(wàn)億美元的產(chǎn)業(yè)革命。然而,通往這一未來(lái)的道路并不平坦,具身智能模型的通用性、仿真到現(xiàn)實(shí)(Sim2Real)的數(shù)據(jù)瓶頸以及硬件性能的物理極限,仍是人形機(jī)器人規(guī)?;l(fā)的三大關(guān)鍵卡點(diǎn)。
模型瓶頸:提升泛化能力,加速模型收斂
人形機(jī)器人的核心在于“具身智能”(Embodied AI),即讓機(jī)器人在物理世界中理解環(huán)境、執(zhí)行任務(wù)的能力。然而,當(dāng)前具身智能模型架構(gòu)碎片化、通用性和閉環(huán)能力仍是最大瓶頸。
宇樹(shù)科技的王興興坦言,現(xiàn)有模型多局限于特定任務(wù),難以應(yīng)對(duì)復(fù)雜、多步驟場(chǎng)景。他指出:“你最大的問(wèn)題目前其實(shí)還是整個(gè)具身智能的整個(gè)模型其實(shí)還是不夠泛用性,包括它的實(shí)用性還是有更大的提升,這塊其實(shí)是當(dāng)下是最棘手的問(wèn)題了?!?
在工業(yè)場(chǎng)景中,機(jī)器人需完成從搬運(yùn)到碼垛、分揀的全流程閉環(huán),但當(dāng)前技術(shù)僅在部分環(huán)節(jié)接近人類(lèi)水平。銀河通用的王鶴以汽車(chē)制造為例,說(shuō)明了這一挑戰(zhàn)的復(fù)雜性:“搬運(yùn)方面,銀河通用最近展示的機(jī)器人視頻里,其搬運(yùn)速度已經(jīng)接近人類(lèi)水平……但是,搬運(yùn)只是第一步。除了搬運(yùn),還需要實(shí)現(xiàn)碼垛的閉環(huán)能力,只有搬運(yùn)和碼垛都完成閉環(huán),機(jī)器人才能真正勝任整套工作流程?!?分揀任務(wù)的難度更高,尤其在高節(jié)拍、高精度的汽車(chē)產(chǎn)線(xiàn)上,機(jī)器人速度和精度仍難以媲美熟練工人。
模型架構(gòu)的碎片化進(jìn)一步放緩了進(jìn)展。王興興提到,當(dāng)前模型架構(gòu)的不統(tǒng)一導(dǎo)致行業(yè)整體進(jìn)展緩慢。如果能收斂成標(biāo)準(zhǔn)化的架構(gòu),結(jié)合當(dāng)前的技術(shù)熱潮,突破速度或?qū)@著加快。他分享了宇樹(shù)科技的嘗試:早期探索用視頻生成模型作為“世界模型”驅(qū)動(dòng)機(jī)械臂的訓(xùn)練,但因算力限制未能深入。近期谷歌在視頻生成模型上的突破,憑借更強(qiáng)的物理對(duì)齊能力,重新點(diǎn)燃了這一方向的希望。
要提升具身智能,強(qiáng)化學(xué)習(xí)(RL)與VLA的結(jié)合成為一條關(guān)鍵思路。宇樹(shù)科技利用NVIDIA的Isaac Sim平臺(tái),通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人掌握舞蹈、跳躍等動(dòng)作,顯著減少了對(duì)真實(shí)數(shù)據(jù)的依賴(lài)。王興興表示:“不同于語(yǔ)言模型訓(xùn)練,動(dòng)作訓(xùn)練只需少量真實(shí)數(shù)據(jù),其余由強(qiáng)化學(xué)習(xí)完成?!?這一方法通過(guò)虛擬環(huán)境模擬復(fù)雜場(chǎng)景,加速了模型迭代。
此外,行業(yè)協(xié)作也在推動(dòng)架構(gòu)統(tǒng)一,NVIDIA的Isaac平臺(tái)為模型訓(xùn)練提供了標(biāo)準(zhǔn)化框架,加速了泛化能力的突破。
數(shù)據(jù)瓶頸:Sim2Real的效率與魯棒性提升
人形機(jī)器人訓(xùn)練所需的數(shù)據(jù)量巨大,尤其是動(dòng)作與環(huán)境的配對(duì)數(shù)據(jù)。真實(shí)數(shù)據(jù)的稀缺性成為瓶頸,例如,訓(xùn)練機(jī)器人應(yīng)對(duì)緊急情況(如自動(dòng)駕駛中避讓行人)無(wú)法通過(guò)真實(shí)測(cè)試實(shí)現(xiàn),因?yàn)檎鎸?shí)世界數(shù)據(jù)的獲取成本高且存在倫理限制,所以具身智能訓(xùn)練高度依賴(lài)仿真技術(shù),Rev Lebaredian強(qiáng)調(diào):“如果你想構(gòu)建一個(gè)能夠在現(xiàn)實(shí)世界中行動(dòng)且安全可靠的機(jī)器人系統(tǒng),實(shí)際上唯一的選擇就是使用仿真?!?
然而,仿真到現(xiàn)實(shí)的精度差距(Sim2Real Gap)以及數(shù)據(jù)生成效率的限制,構(gòu)成了另一大瓶頸。
高精度仿真需準(zhǔn)確復(fù)現(xiàn)物理世界的規(guī)律,但這將會(huì)導(dǎo)致高昂的計(jì)算成本。Rev Lebaredian指出:“問(wèn)題是這些高精度仿真計(jì)算成本極高,通常需要在大型計(jì)算機(jī)上運(yùn)行數(shù)小時(shí)?!?
此外,合成數(shù)據(jù)的生成依賴(lài)于高質(zhì)量虛擬環(huán)境,但當(dāng)前仍需人工構(gòu)建復(fù)雜場(chǎng)景。生成具有真實(shí)物理參數(shù)(如摩擦系數(shù)、材料特性)的虛擬環(huán)境,需大量人工干預(yù),效率低下。
銀河通用通過(guò)NVIDIA的仿真引擎,生成了全球首個(gè)百億級(jí)抓取和柔性物體操作數(shù)據(jù)集,顯著提升了模型的魯棒性。銀河通用的王鶴分享了他們的經(jīng)驗(yàn):“真實(shí)世界數(shù)據(jù)僅占我們訓(xùn)練數(shù)據(jù)的1%,其余99%均為合成數(shù)據(jù)?!?透過(guò)合成數(shù)據(jù)的泛化能力提升,才能確保模型在真實(shí)場(chǎng)景中的魯棒性。
為解決Sim2Real與數(shù)據(jù)瓶頸,英偉達(dá)提出了AI驅(qū)動(dòng)的仿真策略。Rev Lebaredian介紹:“我們正在利用AI本身作為提升仿真速度和精度的工具。” NVIDIA Cosmos項(xiàng)目旨在構(gòu)建理解物理規(guī)律的“世界基礎(chǔ)模型”,結(jié)合真實(shí)和仿真數(shù)據(jù),生成更高效、精準(zhǔn)的虛擬環(huán)境。這種方法有望實(shí)現(xiàn)數(shù)據(jù)生成的“自動(dòng)駕駛”,大幅減少人工干預(yù),加速人形機(jī)器人的商用進(jìn)程。中國(guó)企業(yè)在這一領(lǐng)域已取得領(lǐng)先實(shí)踐。銀河通用的百億級(jí)數(shù)據(jù)集,正是通過(guò)NVIDIA仿真引擎實(shí)現(xiàn)的突破。王鶴表示:“我們與NVIDIA一致認(rèn)為,合成數(shù)據(jù)是推動(dòng)具身智能快速落地的關(guān)鍵?!?未來(lái),自動(dòng)化仿真技術(shù)的進(jìn)步,將進(jìn)一步彌合Sim2Real差距,加速人形機(jī)器人的商用進(jìn)程。
硬件瓶頸:性能物理極限的突破
盡管硬件成本已不再是主要障礙,但硬件性能的物理極限仍限制了人形機(jī)器人執(zhí)行復(fù)雜任務(wù)的能力。王興興指出:“當(dāng)前限制機(jī)器人執(zhí)行更復(fù)雜動(dòng)作的最大因素并非算法,而是硬件物理極限。例如,要將奔跑速度從每秒3~4米提升到10米,對(duì)硬件的改進(jìn)需求極高?!?
硬件性能的制約工業(yè)場(chǎng)景對(duì)機(jī)器人的速度、精度和能耗要求極高。例如,汽車(chē)制造中的分揀任務(wù)要求機(jī)器人快速、精準(zhǔn)地抓取物體,但當(dāng)前硬件難以達(dá)到熟練工人的效率。此外,靈巧手的開(kāi)發(fā)也面臨挑戰(zhàn),需要更高的自由度和控制精度。能耗和散熱問(wèn)題同樣關(guān)鍵,機(jī)器人需在有限電力下完成實(shí)時(shí)計(jì)算,同時(shí)保持散熱效率。
專(zhuān)用計(jì)算與全棧優(yōu)化NVIDIA Jetson Thor芯片為硬件突破提供了方向,其計(jì)算能力比上一代提升7.5倍,每瓦性能提升3.5倍,I/O吞吐量提升10倍,滿(mǎn)足了復(fù)雜推理和高帶寬感知需求。Rev Lebaredian強(qiáng)調(diào):“Jetson Thor與之前版本最大的不同是,現(xiàn)在具備了足夠的計(jì)算能力,能夠運(yùn)行更大、更強(qiáng)的神經(jīng)網(wǎng)絡(luò)和模型,支持更復(fù)雜的推理任務(wù)?!?
更重要的是,硬件突破需依賴(lài)全棧優(yōu)化。NVIDIA通過(guò)芯片、算法和軟件的協(xié)同設(shè)計(jì),確保性能、能耗和散熱的平衡。這種策略已在銀河通用的實(shí)踐中得到驗(yàn)證,其機(jī)器人憑借Jetson Thor實(shí)現(xiàn)了更快的運(yùn)動(dòng)規(guī)劃和視覺(jué)處理。
王鶴分享:“銀河通用率先將Jetson Thor應(yīng)用于人形機(jī)器人,在演示中,配備該芯片的機(jī)器人展現(xiàn)出絲滑的運(yùn)動(dòng)性能以及實(shí)時(shí)的貨箱視覺(jué)處理與運(yùn)動(dòng)規(guī)劃能力,速度顯著提升。” 這一實(shí)踐證明了硬件性能對(duì)復(fù)雜任務(wù)的支持。此外,宇樹(shù)科技也在推進(jìn)20自由度靈巧手的開(kāi)發(fā),目標(biāo)是實(shí)現(xiàn)日常任務(wù)的精準(zhǔn)操作。這些進(jìn)展表明,硬件性能的提升正為模型推理提供更強(qiáng)支持,加速人形機(jī)器人商用落地。
未來(lái):抓住窗口,產(chǎn)量突破和應(yīng)用部署是關(guān)鍵
人形機(jī)器人正站在技術(shù)與市場(chǎng)的交匯處,承載著人工智能重塑物理世界的宏大愿景。具身智能的通用性、Sim2Real與數(shù)據(jù)瓶頸、硬件性能的極限,是規(guī)?;l(fā)的三大障礙,但強(qiáng)化學(xué)習(xí)、自動(dòng)化仿真和專(zhuān)用計(jì)算正在為突破鋪路。正如王興興所言:“AI領(lǐng)域充滿(mǎn)了可能性,往往一個(gè)靈光一閃的創(chuàng)意就能帶來(lái)突破。” 他預(yù)測(cè),未來(lái)幾年機(jī)器人出貨量有望每年翻倍,行業(yè)正處于快速成長(zhǎng)階段。中國(guó)的制造能力、人才儲(chǔ)備和應(yīng)用場(chǎng)景為其提供了獨(dú)特優(yōu)勢(shì)。
王鶴則認(rèn)為,未來(lái)十年,人形機(jī)器人市場(chǎng)有望超越工業(yè)機(jī)械臂,邁向萬(wàn)億級(jí)規(guī)模?!邦A(yù)計(jì)未來(lái)每三年人形機(jī)器人的產(chǎn)值會(huì)乘10,假設(shè)現(xiàn)在頭部是賣(mài)1000臺(tái),三年后就是1萬(wàn)臺(tái),再三年后就是10萬(wàn)臺(tái)。那么10萬(wàn)臺(tái)級(jí)的量,如果賣(mài)幾十萬(wàn)一臺(tái)的話(huà),就達(dá)到了1000億,超過(guò)了整個(gè)工業(yè)機(jī)械臂的總產(chǎn)值。”
然而,有質(zhì)疑聲認(rèn)為人形機(jī)器人可能重蹈元宇宙覆轍,成為曇花一現(xiàn)的技術(shù)熱潮,在潮水消退之后便歸為沉寂。因此,人形機(jī)器人的廠商,更需要抓住當(dāng)前的窗口期,加快實(shí)現(xiàn)產(chǎn)量翻倍和行業(yè)應(yīng)用規(guī)?;渴穑瑥亩鴮?shí)現(xiàn)模型和數(shù)據(jù)的飛輪,技術(shù)和商業(yè)的飛輪,這兩個(gè)飛輪效應(yīng)的構(gòu)建,將會(huì)真正推動(dòng)人形機(jī)器人走向爆發(fā)。而我們也期待這場(chǎng)機(jī)器人的盛筵,以中國(guó)為中心,在全球鋪開(kāi)。
Rev Lebaredian指出:“中國(guó)擁有大量聰明、受過(guò)良好教育且充滿(mǎn)熱情的AI研究人員和開(kāi)發(fā)者,這樣的生態(tài)體系和制造規(guī)模是其他國(guó)家難以匹敵的?!比騾f(xié)作同樣不可或缺:在NVIDIA的Isaac平臺(tái)、Jetson Thor芯片和Cosmos項(xiàng)目的支持下,與宇樹(shù)科技、銀河通用等企業(yè)的協(xié)作,正推動(dòng)人形機(jī)器人邁向萬(wàn)億市場(chǎng),開(kāi)啟通用智能的新時(shí)代。