www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 廠商動態(tài) > 廠商動態(tài)
[導讀]多智能體對抗作為決策AI中重要的部分,也是強化學習領域的難題之一。為豐富多智能體對抗環(huán)境,OpenDILab(開源決策智能平臺)開源了一款多智能體對抗競技游戲環(huán)境——Go-Bigger。同時,Go-Bigger還可作為強化學習環(huán)境協(xié)助多智能體決策AI研究。

多智能體對抗作為決策AI中重要的部分,也是強化學習領域的難題之一。為豐富多智能體對抗環(huán)境,OpenDILab(開源決策智能平臺)開源了一款多智能體對抗競技游戲環(huán)境——Go-Bigger。同時,Go-Bigger還可作為強化學習環(huán)境協(xié)助多智能體決策AI研究。

與風靡全球的agar.io、球球大作戰(zhàn)等游戲類似,在Go-Bigger中,玩家(AI)控制地圖中的一個或多個圓形球,通過吃食物球和其他比玩家球小的單位來盡可能獲得更多重量,并需避免被更大的球吃掉。每個玩家開始僅有一個球,當球達到足夠大時,玩家可使其分裂、吐孢子或融合,和同伴完美配合來輸出博弈策略,并通過AI技術來操控智能體由小到大地進化,憑借對團隊中多智能體的策略控制來吃掉盡可能多的敵人,從而讓己方變得更強大并獲得最終勝利。

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

四類小球,挑戰(zhàn)不同決策路徑

Go-Bigger采用Free For All(FFA)模式來進行比賽。比賽開始時,每個玩家僅有一個初始球。通過移動該球,玩家可吃掉地圖上的其他單位來獲取更大的重量。每個隊伍都需和其他所有隊伍進行對抗,每局比賽持續(xù)十分鐘。比賽結束后,以每個隊伍最終獲得的重量來進行排名。

在一局比賽中共有分身球、孢子球、食物球、荊棘球四類球。分身球是玩家在游戲中控制移動或者技能釋放的球,可以通過覆蓋其他球的中心點來吃掉比自己小的球;孢子球由玩家的分身球發(fā)射產(chǎn)生,會留在地圖上且可被其他玩家吃掉;食物球是游戲中的中立資源,其數(shù)量會保持動態(tài)平衡。如玩家的分身球吃了一個食物球,食物球的重量將被傳遞到分身球;荊棘球也是游戲中的中立資源,其尺寸更大、數(shù)量更少。如玩家的分身球吃了一個荊棘球,荊棘球的大小將被傳遞到分身球,同時分身球會爆炸并分裂成多個分身。此外,荊棘球可通過吃掉孢子球而被玩家移動。

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

分身球

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體 決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

孢子球                          食物球

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體 決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

荊棘球(尖刺)

團隊緊密配合,實現(xiàn)合理重量傳遞

在Go-Bigger中,團隊內部的合作和外部的競技對于最終的成績至關重要。因此,Go-Bigger設計了一系列的規(guī)則來提高團隊所能帶來的收益。由于玩家的分身球重量越小,移動速度越快,更多的分身可以保證快速發(fā)育,但是會面臨被其他玩家吃掉的風險。同時,冷卻期的存在使得玩家無法靠自身擺脫這樣的風險。因此,同一隊伍中不同玩家的配合尤為關鍵。

為便于團隊內玩家的配合,Go-Bigger設置了玩家無法被同隊伍完全吃掉的規(guī)則。Go-Bigger還設置了單個分身球的重量上限和重量衰減,使得單一分身球無法保持過大重量,迫使其分裂以減少重量損失。在游戲后期,團隊內部的重量傳遞會顯得至關重要,合理的重量傳遞可以保證團隊在與其他隊伍對抗時獲得更大的優(yōu)勢。

支持RL環(huán)境,提供三種交互模式

此外,為幫助用戶在強化學習領域的多智能體策略學習,Go-Bigger也提供了符合gym.Env標準的接口供其使用。在一局游戲中,Go-Bigger默認設置含有20個狀態(tài)幀和5個動作幀。每個狀態(tài)幀都會對當前地圖內所有單位進行仿真和狀態(tài)處理,而動作幀會在此基礎上,附加對單位的動作控制,即改變單位的速度、方向等屬性,或使單位啟用分裂、發(fā)射或停止等技能。

為了更方便地對環(huán)境進行探索,Go-Bigger還提供了必要的可視化工具。在與環(huán)境進行交互的時候,可以直接保存本局包含全局視角及各個玩家視角的錄像。此外,Go-Bigger提供了單人全局視野、雙人全局視野、單人局部視野三種人機交互模式,使得用戶可以快速了解環(huán)境規(guī)則。

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

三步走,快速搭建強化學習baseline

算法baseline的目的是驗證某個問題環(huán)境使用強化學習算法的初步效果,對各個環(huán)節(jié)的信息做簡單梳理和分析,熟悉之后便可輕松上手比賽,在環(huán)境、算法、算力上逐步增加復雜度,設計迭代效果更強的智能體。

Go-Bigger環(huán)境的強化學習算法baseline主要分為環(huán)境瘦身、基礎算法選擇、定制訓練流程三部分。其中,環(huán)境瘦身即將原始游戲環(huán)境簡化成適用于強化學習的標準環(huán)境格式;基礎算法選擇指根據(jù)環(huán)境的基本信息選擇合理的基礎RL算法;定制訓練流程指根據(jù)環(huán)境的特殊特征定制訓練流程。

1.環(huán)境瘦身

A.人類視角的Go-Bigger(左)V.S. 翻譯成游戲引擎中的結構化信息(右):

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

這些人理解起來很簡單的數(shù)據(jù)表示,對計算機和神經(jīng)網(wǎng)絡卻非常不友好,因此需要專門對這些信息做一定的加工,并根據(jù)強化學習的特性設置成標準的強化學習環(huán)境觀察空間。

(1)特征工程:

? 原始的游戲數(shù)據(jù)需要表達游戲內容,其數(shù)值范圍波動便會較大(比如從幾十到幾萬的球體大小),直接將這樣的信息輸入給神經(jīng)網(wǎng)絡會造成訓練的不穩(wěn)定,所以需要根據(jù)信息的具體特征進行一定的處理(比如歸一化,離散化,取對數(shù)坐標等等)。

? 對于類別信息等特征,不能直接用原始的數(shù)值作為輸入,常見的做法是將這樣的信息進行獨熱編碼,映射到一個兩兩之間距離相等的表示空間。

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

? 對于坐標等信息,使用絕對坐標會帶來一些映射關系的不一致問題,相對坐標通常是更好的解決方式。

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

(2)從RGB圖像到特征圖像層

直接將原始的RGB 2D圖像信息輸入神經(jīng)網(wǎng)絡,盡管結果尚可,但需要更多的數(shù)據(jù)、更長的訓練時間,以及更復雜的訓練技巧。更為簡明并有效的方式是進行“升維”,即將耦合在一起的圖像信息離解成多個分離的特征圖像層。最終根據(jù)游戲內容定義出具體的特征圖像層,并區(qū)分各個玩家的局部視野,拼接后構成總體的特征圖像層。下圖為一玩家視野中食物球的特征圖像層:

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

(3)可變維度

Go-Bigger環(huán)境中存在很多可變維度的地方,為了簡化,baseline環(huán)境中強行截斷了單位數(shù)量,用統(tǒng)一的方式來規(guī)避可變維度問題。

B.設計動作空間

Go-Bigger對于人類來說操作起來十分簡單,包括上下左右QWE,這些基本的按鍵組合起來便可以誕生出許多有趣的操作,如十面埋伏、大快朵頤等。但是,游戲引擎中實際的動作空間是這樣的(動作類型 + 動作參數(shù)):

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

游戲引擎的這種形式在強化學習中被稱作混合動作空間,也有相應的算法來處理該問題。但基于baseline一切從簡這一核心,通過使用比較簡單粗暴的離散化處理,將連續(xù)的動作參數(shù)(x,y坐標)離散化為上下左右四個方向。針對動作類型和動作參數(shù)的組合,也簡單使用二者的笛卡爾積來表示,最終將環(huán)境定義為一個16維的離散動作空間。

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

C.設計獎勵函數(shù)

獎勵函數(shù)定義了強化學習優(yōu)化的目標方向。Go-Bigger是一項關于比誰的隊伍更大的對抗游戲,因此獎勵函數(shù)的定義也非常簡單,即相鄰兩幀整個隊伍的大小之差。

如下圖所示兩張表示相鄰兩個動作幀,右側計分板顯示各個隊伍實時的大小數(shù)值,將當前幀的大小減去上一幀的大小,就定義得到了獎勵值。而對于整場比賽,則使用每一步獎勵的累加和作為最終的評價值。評價值最大的隊伍,將贏得本局比賽。此外,在訓練時,還通過縮放和截斷等手段將獎勵值限制在[-1, 1]范圍內。

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

2.基礎算法選擇

在完成對RL環(huán)境的魔改之后,會呈現(xiàn)如下基本信息:

? 多模態(tài)觀察空間:圖像信息 + 單位屬性信息 + 全局信息

? 離散動作空間:16維離散動作

? 獎勵函數(shù):稠密的獎勵函數(shù),且取值已經(jīng)處理到[-1, 1]

? 終止狀態(tài):并無真正意義上的終止狀態(tài),僅限制比賽的最長時間

對于這樣的環(huán)境,可用最經(jīng)典的DQN算法 + 多模態(tài)編碼器神經(jīng)網(wǎng)絡來實現(xiàn)。對于各種模態(tài)的觀察信息,使用數(shù)據(jù)對應的經(jīng)典神經(jīng)網(wǎng)絡架構即可。例如,對于圖像信息,選擇一個帶降采樣的卷積神經(jīng)網(wǎng)絡將2D圖像編碼為特征向量;對于單位屬性信息,需要建模各個單位之間的聯(lián)系,獲得最終的單位特征向量;對于全局信息,則使用由全連接層構成的多層感知機。在各部分編碼完成之后,將三部分的特征拼接在一起,將構成時間步的觀察特征向量,以復用最經(jīng)典的Dueling DQN結構。以特征向量為輸入,輸出這一步選擇16個動作的Q值,并使用N-step TD損失函數(shù)即可完成相應訓練的優(yōu)化。完整的神經(jīng)網(wǎng)絡結構如下圖所示。

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

3.定制訓練流程

DQN通常只用來解決單智能體的問題,而在Go-Bigger中一支隊伍會存在多個玩家,且一局比賽為多個隊伍混戰(zhàn),因此會涉及多智能體之間合作和對抗等問題。在多智能體強化學習領域,針對該問題可展開諸多的研究方向,但為簡化設計Go-Bigger使用了Independent Q-Learning (IQL)+ 自我對戰(zhàn)(Self-Play)的方式來實現(xiàn)訓練流程。

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

例如,對于一個隊伍中的多個智能體,團隊的最終目標是讓整個隊伍(總體積/總體量/總重量)的大小最大,因此在baseline中可使用IQL算法來實現(xiàn),以高度并行化地實現(xiàn)整個優(yōu)化過程;對于實際一局比賽中存在多個智能體的情況,則可使用樸素的自我對戰(zhàn)(Self-Play)這一相當簡單且非常節(jié)省算力的方式來參與比賽。評測時,會將隨機機器人和基于規(guī)則的機器人作為比賽的對手,測試驗證目前智能體的性能。

Tips:

? 使用更高級的自我對戰(zhàn)(Self-Play)算法(比如保存智能體的中間歷史版本,或使用PFSP算法);

? 構建League Training流程,不同隊伍使用不同的策略,不斷進化博弈;

? 設計基于規(guī)則的輔助機器人參與到訓練中,幫助智能體發(fā)現(xiàn)弱點,學習新技能,可作為預訓練的標簽或League Training中的對手,也可構造蒸餾訓練方法的老師,請玩家盡情腦洞。

從零開始實現(xiàn)上述算法和訓練流程非常復雜,而通過決策智能框架DI-engine(https://github.com/opendilab/DI-engine)可大大簡化相應內容。其內部已經(jīng)集成了支持多智能體的DQN算法實現(xiàn)和一系列相關訣竅,以及玩家自我對戰(zhàn)和對抗機器人的訓練組件,只需實現(xiàn)相應的環(huán)境封裝,神經(jīng)網(wǎng)絡模型和訓練主函數(shù)即可(詳細代碼參考https://github.com/opendilab/GoBigger-Challenge-2021/tree/main/di_baseline)。

幾個有意思的發(fā)現(xiàn)

通過上述簡單基線算法訓練出來的初級AI在在發(fā)育階段會將球盡量分開,以增大接觸面加快發(fā)育;在面對潛在的危險時,會避開比自身大的球,并使用分裂技能加快移動速度,防止被吃掉。這些操作都是在人類玩家的游戲過程中經(jīng)常用到的小技巧。

決策AI版“大球吃小球”Go-Bigger發(fā)布!無需繁雜代碼也能設計游戲AI智能體

為了進一步推動決策智能相關領域的技術人才培養(yǎng),打造全球領先的原創(chuàng)決策AI開源技術生態(tài),OpenDILab(開源決策智能平臺)將發(fā)起首屆Go-Bigger多智能體決策AI挑戰(zhàn)賽(Go-Bigger: Multi-Agent Decision Intelligence Challenge)。本次比賽將于2021年11月正式啟動,使用由OpenDILab開源的Go-Bigger(https://github.com/opendilab/GoBigger)游戲環(huán)境。希望集結全球技術開發(fā)者和在校學生,共同探索多智能體博弈的研究。歡迎對AI技術抱有濃厚興趣的選手踴躍參加,和全球的頂尖高手一決勝負!


本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉