OpenAI能解開三階魔方的機(jī)械手
掃描二維碼
隨時(shí)隨地手機(jī)看文章
據(jù)報(bào)道,OpenAI是一家以人工智能和機(jī)器學(xué)習(xí)研究而聞名的公司,其周二展示了能解開三階魔方的機(jī)械手。這套名為Dactyl的機(jī)械手是通過使用稱為自動(dòng)域隨機(jī)化(ADR)和強(qiáng)化學(xué)習(xí)的新技術(shù)進(jìn)行訓(xùn)練的。在過去的Dota 2中,Dactyl所采用的強(qiáng)化學(xué)習(xí)算法已經(jīng)證明了它可以對(duì)抗人類對(duì)手。
OpenAI機(jī)械手“學(xué)習(xí)”解開三階魔方技術(shù)
名為Dactyl的機(jī)械手是通過使用稱為自動(dòng)域隨機(jī)化(ADR)和強(qiáng)化學(xué)習(xí)的新技術(shù)進(jìn)行訓(xùn)練的。在過去的Dota 2中,Dactyl所采用的強(qiáng)化學(xué)習(xí)算法已經(jīng)證明了它可以對(duì)抗人類對(duì)手。
新技術(shù)ADR通過生成越來越難以訓(xùn)練的Dactyl訓(xùn)練場(chǎng)景來幫助教機(jī)械手解決古老的難題。自動(dòng)域隨機(jī)化的方式如下:
ADR從單一的非隨機(jī)環(huán)境開始,在該環(huán)境中,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了如何解開三階魔方。隨著神經(jīng)網(wǎng)絡(luò)在任務(wù)中變得更好并達(dá)到性能閾值,域隨機(jī)化的數(shù)量會(huì)自動(dòng)增加。
由于神經(jīng)網(wǎng)絡(luò)現(xiàn)在必須學(xué)會(huì)將其推廣到更隨機(jī)的環(huán)境,因此這使任務(wù)更加艱巨。神經(jīng)網(wǎng)絡(luò)不斷學(xué)習(xí),直到再次超過性能閾值,然后再進(jìn)行更多隨機(jī)化,然后重復(fù)該過程。
團(tuán)隊(duì)認(rèn)為,ADR是一項(xiàng)重大進(jìn)步,因?yàn)橹鸩嚼щy的訓(xùn)練模擬的建立“使我們擺脫了對(duì)真實(shí)世界的準(zhǔn)確模型的束縛,并使在模擬中學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)移能夠應(yīng)用于真實(shí)世界。 ”
有些人并不完全相信增強(qiáng)學(xué)習(xí)是否是未來此類機(jī)器人的方法。Berenson在談到該主題時(shí)暗示了一種更傳統(tǒng)的方法:“到今天結(jié)束時(shí),將會(huì)有一些學(xué)習(xí)過程-可能是強(qiáng)化學(xué)習(xí)。但是我認(rèn)為那些過程實(shí)際上應(yīng)該晚得多。”