當(dāng)前位置：首頁 > 智能硬件 > 人工智能AI

人工智能機(jī)器學(xué)習(xí)之強(qiáng)化學(xué)習(xí)

時(shí)間：2020-07-18 10:45:02

關(guān)鍵字：人工智能機(jī)器學(xué)習(xí)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 當(dāng)前人工智能之機(jī)器學(xué)習(xí)算法主要有7大類：1）監(jiān)督學(xué)習(xí)（Supervised Learning），2）無監(jiān)督學(xué)習(xí)（Unsupervised Learning），3）半監(jiān)督學(xué)習(xí)（Semi－super

當(dāng)前人工智能之機(jī)器學(xué)習(xí)算法主要有7大類：1）監(jiān)督學(xué)習(xí)（Supervised Learning），2）無監(jiān)督學(xué)習(xí)（Unsupervised Learning），3）半監(jiān)督學(xué)習(xí)（Semi－supervised Learning），4）深度學(xué)習(xí)（Deep Learning），5）強(qiáng)化學(xué)習(xí)（Reinforcement Learning），6）遷移學(xué)習(xí)（Transfer Learning），7）其他（Others）。

今天我們重點(diǎn)探討一下強(qiáng)化學(xué)習(xí)（RL）。

強(qiáng)化學(xué)習(xí)（RL），又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí)，是一種重要的機(jī)器學(xué)習(xí)方法，在智能控制機(jī)器人及分析預(yù)測(cè)等領(lǐng)域有許多應(yīng)用。

那么什么是強(qiáng)化學(xué)習(xí)？

強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí)，以使獎(jiǎng)勵(lì)信號(hào)（強(qiáng)化信號(hào)）函數(shù)值最大，強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督學(xué)習(xí)，主要表現(xiàn)在教師信號(hào)上，強(qiáng)化學(xué)習(xí)中由環(huán)境提供的強(qiáng)化信號(hào)是對(duì)產(chǎn)生動(dòng)作的好壞作一種評(píng)價(jià)（通常為標(biāo)量信號(hào)），而不是告訴強(qiáng)化學(xué)習(xí)系統(tǒng)RLS（reinforcement learning system）如何去產(chǎn)生正確的動(dòng)作。由于外部環(huán)境提供的信息很少，RLS必須靠自身的經(jīng)歷或能力進(jìn)行學(xué)習(xí)。通過這種方式，RLS在行動(dòng)－評(píng)價(jià)的環(huán)境中獲得知識(shí)，改動(dòng)方案以適應(yīng)環(huán)境。

通俗的講，就是當(dāng)一個(gè)小孩學(xué)習(xí)有迷?；蚶Щ髸r(shí)，如果老師發(fā)現(xiàn)小孩方法或思路正確，就給他（她）正反饋（獎(jiǎng)勵(lì)或鼓勵(lì)）；否則就給他（她）負(fù)反饋（教訓(xùn)或懲罰），激勵(lì)小孩的潛能，強(qiáng)化他（她）自我學(xué)習(xí)能力，依靠自身的力量來主動(dòng)學(xué)習(xí)和不斷探索，最終讓他（她）找到正確的方法或思路，以適應(yīng)外部多變的環(huán)境。

強(qiáng)化學(xué)習(xí)有別于傳統(tǒng)的機(jī)器學(xué)習(xí)，不能立即得到標(biāo)記，而只能得到一個(gè)反饋（獎(jiǎng)或罰），可以說強(qiáng)化學(xué)習(xí)是一種標(biāo)記延遲的監(jiān)督學(xué)習(xí)。強(qiáng)化學(xué)習(xí)是從動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理論發(fā)展而來的。

強(qiáng)化學(xué)習(xí)原理：

如果Agent的某個(gè)行為策略導(dǎo)致環(huán)境正的獎(jiǎng)賞（強(qiáng)化信號(hào)），那么Agent以后產(chǎn)生這個(gè)行為策略的趨勢(shì)加強(qiáng)。Agent的目標(biāo)是在每個(gè)離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略以使期望的折扣獎(jiǎng)賞和最大。

強(qiáng)化學(xué)習(xí)把學(xué)習(xí)看作試探評(píng)價(jià)過程，Agent選擇一個(gè)動(dòng)作用于環(huán)境，環(huán)境接受該動(dòng)作后狀態(tài)發(fā)生變化，同時(shí)產(chǎn)生一個(gè)強(qiáng)化信號(hào)（獎(jiǎng)或懲）反饋給Agent，Agent根據(jù)強(qiáng)化信號(hào)和環(huán)境當(dāng)前狀態(tài)再選擇下一個(gè)動(dòng)作，選擇的原則是使受到正強(qiáng)化（獎(jiǎng)）的概率增大。選擇的動(dòng)作不僅影響立即強(qiáng)化值，而且影響環(huán)境下一時(shí)刻的狀態(tài)及最終的強(qiáng)化值。

若已知R／A梯度信息，則可直接可以使用監(jiān)督學(xué)習(xí)算法。因?yàn)閺?qiáng)化信號(hào)R與Agent產(chǎn)生的動(dòng)作A沒有明確的函數(shù)形式描述，所以梯度信息R／A無法得到。因此，在強(qiáng)化學(xué)習(xí)系統(tǒng)中，需要某種隨機(jī)單元，使用這種隨機(jī)單元，Agent在可能動(dòng)作空間中進(jìn)行搜索并發(fā)現(xiàn)正確的動(dòng)作。

強(qiáng)化學(xué)習(xí)模型

強(qiáng)化學(xué)習(xí)模型包括下面幾個(gè)要素：

1）規(guī)則（policy）：規(guī)則定義了Agent在特定的時(shí)間特定的環(huán)境下的行為方式，可以視為是從環(huán)境狀態(tài)到行為的映射，常用 π來表示。可以分為兩類：

確定性的policy（DeterminisTIc policy）： a＝π（s）

隨機(jī)性的policy（StochasTIc policy）： π（a｜s）＝P［At＝a｜St＝t］

其中，t是時(shí)間點(diǎn)，t＝0，1，2，3，……

St∈S，S是環(huán)境狀態(tài)的集合，St代表時(shí)刻t的狀態(tài)，s代表其中某個(gè)特定的狀態(tài)；

At∈A（St），A（St）是在狀態(tài)St下的acTIons的集合，At代表時(shí)刻t的行為，a代表其中某個(gè)特定的行為。

2）獎(jiǎng)勵(lì)信號(hào)（areward signal）：Reward是一個(gè)標(biāo)量值，是每個(gè)TIme step中環(huán)境根據(jù)agent的行為返回給agent的信號(hào)，reward定義了在該情景下執(zhí)行該行為的好壞，agent可以根據(jù)reward來調(diào)整自己的policy。常用R來表示。

3）值函數(shù)（valuefunction）：Reward定義的是立即的收益，而value function定義的是長期的收益，它可以看作是累計(jì)的reward，常用v來表示。

4）環(huán)境模型（a modelof the environment）：整個(gè)Agent和Environment交互的過程可以用下圖來表示：

Agent作為學(xué)習(xí)系統(tǒng)，獲取外部環(huán)境Environment的當(dāng)前狀態(tài)信息St，對(duì)環(huán)境采取試探行為At，并獲取環(huán)境反饋的對(duì)此動(dòng)作的評(píng)價(jià)Rt＋1和新的環(huán)境狀態(tài)St＋1 。如果Agent的某動(dòng)作At導(dǎo)致環(huán)境Environment的正獎(jiǎng)賞（立即報(bào)酬），那么Agent以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng)；反之，Agent產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)將減弱。在強(qiáng)化學(xué)習(xí)系統(tǒng)的控制行為與環(huán)境反饋的狀態(tài)及評(píng)價(jià)的反復(fù)交互作用中，以學(xué)習(xí)的方式不斷修改從狀態(tài)到動(dòng)作的映射策略，達(dá)到優(yōu)化系統(tǒng)性能目的。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開發(fā)時(shí)間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動(dòng) BSP

[美通社全球TMT]

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn)，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場(chǎng)開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國通信服務(wù)公布2024年中期業(yè)績

要點(diǎn)：有效應(yīng)對(duì)環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競(jìng)爭力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競(jìng)爭優(yōu)勢(shì)...

關(guān)鍵字：通信 BSP 電信運(yùn)營商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動(dòng)力與長三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上，軟通動(dòng)力信息技術(shù)（集團(tuán)）股份有限公司（以下簡稱"軟通動(dòng)力"）與長三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)