聯合隨機性策略的深度強化學習探索方法
所屬分類:技術論文
上傳者:zhoubin333
文檔大小:679 K
標簽: 強化學習 深度強化學習 探索利用困境
所需積分:0分積分不夠怎么辦?
文檔介紹: 目前深度強化學習算法已經可以解決許多復雜的任務,然而如何平衡探索和利用的關系仍然是強化學習領域的一個基本的難題,為此提出一種聯合隨機性策略的深度強化學習探索方法。該方法利用隨機性策略具有探索能力的特點,用隨機性策略生成的經驗樣本訓練確定性策略,鼓勵確定性策略在保持自身優勢的前提下學會探索。通過結合確定性策略算法DDPG和提出的探索方法,得到基于隨機性策略指導的確定性策略梯度算法(SGDPG)。在多個復雜環境下的實驗表明,面對探索問題,SGDPG的探索效率和樣本利用率要優于DDPG算法。
現在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。
主站蜘蛛池模板: 成年人午夜影院| 最近中文字幕完整电影| 午夜性福利视频| 色老头成人免费综合视频| 国产无遮挡又黄又爽在线观看| 91亚洲精品第一综合不卡播放| 夫妇交换性三中文字幕| 一级毛片特级毛片黄毛片| 抱着cao才爽| 久久久久久亚洲精品中文字幕 | 中文网丁香综合网| 日韩a级无码免费视频| 乱色精品无码一区二区国产盗| 欧美区在线播放| 亚洲欧美日韩人成| 热热色原原网站| 免费A级毛片无码A| 福利网站在线观看| 全彩侵犯熟睡的女同学本子| 精品福利视频网| 四虎国产精品永久在线| 老色鬼久久亚洲av综合| 国产一区在线视频观看| 视频在线免费观看资源| 国产午夜无码福利在线看网站 | 欧美在线一级视频| 亚洲成av人片在线观看无| 欧美黑人xxxx猛战黑人| 亚洲美女视频一区| 男人j进女人p免费动态图| 伊人色综合视频一区二区三区| 精品国产v无码大片在线观看| 午夜精品久久久久久久久| 美女免费视频一区二区三区| 啦啦啦中文高清在线观看6| 羞羞答答www网址进入在线观看| 国产99久久精品一区二区| 色偷偷噜噜噜亚洲男人| 国产a毛片高清视| 老子影院我不卡| 又大又硬又爽免费视频|