www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀] 相比于傳統(tǒng)方式中需要工程人員手動設(shè)計機器人每一個動作的精確參數(shù),AI 時代的研究人員們有了一種全自動化的、有著廣闊前景的新學習方式:深度強化學習可以讓機器人從經(jīng)驗、從與世界的互動中直接學習行為,

相比于傳統(tǒng)方式中需要工程人員手動設(shè)計機器人每一個動作的精確參數(shù),AI 時代的研究人員們有了一種全自動化的、有著廣闊前景的新學習方式:深度強化學習可以讓機器人從經(jīng)驗、從與世界的互動中直接學習行為,因為它可以借助通用化的神經(jīng)網(wǎng)絡(luò)表示,處理復雜的傳感器輸入。然而,許多現(xiàn)有的強化學習算法都需要幾天、幾周甚至更久時長的真實世界數(shù)據(jù)才能收斂到比較理想的動作。更重要的是,這樣的系統(tǒng)很難在復雜的機器人系統(tǒng)上使用(比如多足機器人),在系統(tǒng)的探索學習過程中很容易就會損傷到機器人的機械部件,同時還難以調(diào)節(jié)超參數(shù),許多安全方面的考量也可能帶來更多的限制。

近期,谷歌 AI 與 UC 伯克利大學合作研發(fā)了一種新的強化學習算法 Soft Actor-Critic(SAC)。這是一種穩(wěn)定、高效的深度強化學習算法,它高度符合機器人實驗的需求,也就非常適合真實世界中的機器人技能學習。重點是,SAC 的學習效率足夠高,可以在數(shù)個小時內(nèi)學會解決真實世界的機器人問題,而且同一套超參數(shù)可以在多種不同的環(huán)境中工作。

谷歌 AI 撰寫博客介紹了 SAC 背后的一些研究工作,也介紹了相關(guān)的實驗結(jié)果。雷鋒網(wǎng) AI 科技評論編譯如下。

在真實世界中學習機器人的要求

真實世界的機器人實驗有著一些重大的挑戰(zhàn),比如硬件失效和人工重置會導致數(shù)據(jù)流經(jīng)常中斷,以及需要讓探索學習過程平滑,避免快速的機械磨損或者撞擊破壞,這都對算法理論和算法的實現(xiàn)增加了額外的限制,包括以下(但不限于):

有較高的樣本效率,以便降低學習時間;

需要調(diào)節(jié)的超參數(shù)的數(shù)量盡量?。?/p>

能在不同的場景中重復使用已經(jīng)采集到的數(shù)據(jù)(也被稱作“無策略學習”);

確保探索學習過程不損壞硬件;

Soft Actor-CriTIc

Soft Actor-CriTIc 是基于最大熵強化學習開發(fā)的,這是一種嘗試讓預期回報最大化(標準的強化學習目標),同時也讓策略的熵最大化的框架。熵更高的策略具有更高的隨機性,從直覺上看來,這意味著最大熵強化學習會學習出能取得高回報的策略中具有最高隨機性的那個策略。

為什么在機器人學習中這是一件好事呢?一個明顯的原因是,為最大熵優(yōu)化的策略會更為魯棒:如果策略在訓練過程中能夠允許高度隨機的動作,那么它在測試時候也就更有可能可以順利地應對預期不到的擾動。不過更穩(wěn)妥的理由是,最大熵訓練不僅可以提高算法對超參數(shù)的魯棒性,也可以提高它的采樣效率。

Soft Actor-CriTIc 會學習一個隨機策略,這個策略會把狀態(tài)映射到動作以及一個 Q 函數(shù),這個 Q 函數(shù)會估計當前策略的目標價值,并通過逼近動態(tài)編程優(yōu)化它們。通過這樣的方式,Soft Actor-CriTIc 可以讓經(jīng)過熵強化的回報最大化。在這個過程中,SAC 會把目標看作一個絕對真的方法來導出更好的強化學習算法,它們的表現(xiàn)穩(wěn)定,而且有足夠高的樣本效率,可以用在真實世界的機器人應用中。

SAC 的表現(xiàn)

研究人員們在兩個任務(wù)中評估了算法的表現(xiàn):1,Ghost Robotics 環(huán)境中 Minitaur 四足機器人的行走;2,用一個三指動力爪轉(zhuǎn)動閥門。學習行走這件事當然是一個不小的挑戰(zhàn)了,由于機器人是欠驅(qū)動的,所以機器人需要學會如何在四只腿之間平衡接觸力的大小,這樣才能持續(xù)往前走。未經(jīng)訓練的策略會讓機器人失去平衡摔倒,而如果摔了太多次,最終是有可能把機器人摔壞的。樣本高效的學習在這時候也就非常關(guān)鍵。

雖然研究人員們是在平地上訓練的機器人行走策略,但稍后的測試階段是在多種不同的地面狀況和障礙物上進行的。理論上來說,通過 SAC 學習到的策略在測試時遇到擾動的時候也應當是魯棒的。而實際上研究人員們也觀察到,通過他們的方法學習到的策略不需要任何額外的學習就可以應對這些擾動。

訓練

測試 1

測試 2

測試 3

下面這個操控任務(wù)需要機械手轉(zhuǎn)動一個類似閥門的物體,目標是讓藍色的一面朝向右側(cè)。這個任務(wù)尤其有挑戰(zhàn)性,不僅任務(wù)的理解感知有難度,而且還需要控制這個具有 9 個自由度的機械手。為了能夠感知這個閥門,機器人必須要使用來自攝像頭的原始 RGB 圖像輸入(如圖右下角)。對于每一輪嘗試,閥門的位置都會重新設(shè)定到一個隨機角度,迫使策略學習如何根據(jù) RGB 圖像輸入感知當前的閥門角度。

對于這兩個任務(wù),SAC 都能很快地解決:前一個四足機器人任務(wù)學了 2 個小時,后一個觀察圖像、轉(zhuǎn)動閥門的任務(wù)學習了 20 個小時。研究人員們也為轉(zhuǎn)動閥門任務(wù)學習了一個無需圖像輸入的策略,他們把其它方式采集到的閥門角度作為觀察結(jié)果輸入給策略,在這種簡單的設(shè)置下 SAC 只需要 3 個小時就可以學會解決這個任務(wù)。相比之下,更早的使用自然策略梯度的研究學習同一個無需圖像輸入的任務(wù)需要花 7.4 個小時。

結(jié)論

這項研究展示了基于熵最大化框架的深度強化學習可以用來在有挑戰(zhàn)性的真實世界環(huán)境中學習機器人技能。由于這些策略是直接在真實世界中學習到的,它們對環(huán)境中的變化表現(xiàn)出了魯棒性,這通過其他方式是很難獲得的。研究人員們也展示了他們可以直接從高維圖像觀察中學習,這對經(jīng)典機器人控制來說也是一個很大的挑戰(zhàn)。研究人員們希望 SAC 的發(fā)表可以幫助其他的研究團隊一同更好地把深度強化學習應用在未來更多的復雜真實世界任務(wù)中。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉