《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 基于模仿學習和強化學習的啟發式多智能體路徑規劃
基于模仿學習和強化學習的啟發式多智能體路徑規劃
網絡安全與數據治理
郭傳友,劉志飛,田景志,劉先忠
中國人民解放軍61150部隊
摘要: 多智能體路徑規劃(Multi-Agent Path Finding, MAPF)擴展到大型動態環境中是一個越來越有挑戰的問題。現實世界中,環境動態變化往往需要實時重新規劃路徑。在部分可觀察環境中,使用強化學習方法學習分散的策略解決MAPF問題表現出較大潛力。針對智能體之間如何學會合作和環境獎勵稀疏問題,提出基于模仿學習和強化學習的啟發式多智能體路徑規劃算法。實驗表明,該方法在高密度障礙環境中具有較好的性能和擴展性。
中圖分類號:TP181文獻標識碼:ADOI:10.19358/j.issn.2097-1788.2024.09.006
引用格式:郭傳友,劉志飛,田景志,等.基于模仿學習和強化學習的啟發式多智能體路徑規劃[J].網絡安全與數據治理,2024,43(9):33-40.
Heuristic multi-agent path finding VIA imitation learning and reinforcement learning
Guo Chuanyou,Liu Zhifei,Tian Jingzhi,Liu Xianzhong
Chinese People′s Liberation Army 61150 Unit
Abstract: The extension of multi-agent path finding(MAPF) to large-scale dynamic environment is an increasingly challenging problem. In the real world, dynamic changes in the environment often require real-time re planning. Using reinforcement learning method to learn decentralized strategies in some observable environments shows great potential to solve MAPF problems. A heuristic multi-agent path planning algorithm based on imitation learning and reinforcement learning is proposed to address the problems of how intelligent agents learn to cooperate and sparse environmental rewards. Experiments show that this method has good performance and scalability in high-density obstacle environment.
Key words : multi-agent path finding; reinforcement learning; imitation learning; heuristic

引言

MAPF是對不同起始位置的多個智能體到他們各自目標位置的路徑規劃問題,關鍵約束是在保證智能體之間互相不碰撞的前提下到達目標位置,并保證路徑規劃的速度和質量。MAPF在實際場景中有許多應用,如大型倉庫管理[1-2]、數字游戲[3]、火車調度[4]、城市道路網絡[5]、多機器人系統[6]等,更多實際應用可參考文獻[7]。近年來,越來越多的團隊對MAPF展開研究[8-11],MAPF取得了突破性進展,尤其是基于強化學習(Reinforcement Learning, RL)方法應用到MAPF問題中取得了較好效果,國內對MAPF問題的研究也越來越濃厚。

求解MAPF的最優解已經被證明是NPHard問題[12]。傳統方法將MAPF規約為其他已解決的問題如SAT[13],或使用基于搜索的算法來解決,經典方法有增強的搜索[14]、基于沖突的搜索[15]以及改進的變體[16]等。然而,隨著環境的動態變化和智能體數量的增加,搜索空間巨大對傳統MAPF算法構成挑戰。基于搜索的MAPF算法通過引入優先規劃、大領域搜索和復雜的啟發式函數來優化改進MAPF算法,前沿的算法有EECBS[17]、CCBS[18]、MOA*[19]、MAPFMLLNS[20]。這些算法能解決3 000多個智能體規模的MAPF問題,而且規劃效率和質量較高,但這些集中式規劃算法不能實時規劃路徑,可擴展性差。最近,分散式執行的強化學習方法應用于解決MAPF問題表現出較大的潛力,每個智能體根據局部觀察分散執行策略。

RL智能體在大型環境中和環境互動時,只有達到目標才可以獲取獎勵,而到達目標的過程中獎勵稀疏,學習效率不高,訓練時間長,智能體還可能陷入死胡同。PRIMAL(Pathfinding via Reinforcement and Imitation MultiAgent Learning)[21]采取集中式MAPF規劃器生成專家演示路徑,訓練過程中結合了模仿學習和強化學習,加速了學習過程,但計算比較耗時,求解質量還需提高。G2RL(Globally Guided RL)[22]給予每個智能體額外的獎勵遵循單智能體最短路徑,但這可能會誤導智能體,因為到達目標位置的路徑不是唯一的,這會影響智能體和其他智能體之間的協調合作。DHC(Distributed Heuristic multiagent path finding with Communication)[23]使用多條潛在路徑作為智能體路徑的啟發式輸入,并采用圖卷積網絡來加強智能體之間的通信,促進智能體之間的顯式協調,但學習速度較慢。為了解決上述問題,本文提出了基于強化學習和模仿學習的啟發式多智能體路徑規劃算法(Heuristic multi-agent path planning via Imitation and Reinforcement Learning, HIRL),在智能體的觀察中加入額外的目標向量,并嵌入從目標源到智能體的多條潛在最短路徑作為神經網絡的輸入,使用模仿學習來促進智能體之間的隱式協調,引入目標牽引的獎勵函數來鼓勵智能體進行有效的探索,當智能體向目標方向移動時給予正獎勵。智能體依據自己的局部觀察來做出決策,不需要學習聯合動作值,因此具有很好的可擴展性。本文采用的主要方法如下:

(1)采用模仿學習框架加速智能體學習,促進智能體之間的隱式協調,而不需要智能體之間的顯式通信。

(2)采用智能體到目標位置的方向向量作為智能體觀察的額外信息。

(3)引入目標牽引的獎勵函數,鼓勵智能體朝著目標方向進行有效的探索。

(4)嵌入了從目標源到智能體多條最短路徑作為神經網絡的輸入,能更有效地避免智能體之間的沖突和死鎖情況發生。

(5)使用部分可觀察的環境,智能體根據有限視野的觀察決策行動,更加符合現實世界的環境。


本文詳細內容請下載:

http://www.jysgc.com/resource/share/2000006161


作者信息:

郭傳友,劉志飛,田景志,劉先忠

(中國人民解放軍61150部隊,陜西榆林719000)


Magazine.Subscription.jpg

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲欧洲另类| 亚洲综合日韩| 中文成人激情娱乐网| 亚洲高清视频在线观看| 国内精品久久久久国产盗摄免费观看完整版| 国产精品电影观看| 欧美日韩在线视频一区二区| 欧美日韩精品免费在线观看视频| 欧美电影免费网站| 免费观看在线综合| 牛人盗摄一区二区三区视频| 久久亚洲不卡| 蜜桃av一区| 欧美成人午夜影院| 欧美黄色一级视频| 欧美日韩a区| 欧美日韩精品在线视频| 欧美日韩免费在线观看| 欧美日韩亚洲另类| 欧美四级剧情无删版影片| 欧美日韩一级视频| 国产精品久久久久久影院8一贰佰| 国产精品国产| 国产欧美日韩视频一区二区| 国产日韩欧美综合在线| 国内一区二区三区在线视频| 在线看国产一区| 亚洲人成在线播放网站岛国| 亚洲免费观看| 亚洲亚洲精品三区日韩精品在线视频 | 国产精品麻豆成人av电影艾秋| 国产精品女人毛片| 国产色爱av资源综合区| 狠狠久久五月精品中文字幕| 亚洲黑丝一区二区| 99精品福利视频| 亚洲免费视频一区二区| 久久国产精品一区二区| 亚洲老司机av| 午夜宅男久久久| 久久综合精品一区| 欧美女激情福利| 国产欧美日韩精品一区 | 在线观看日韩| 一本色道久久综合精品竹菊| 亚洲欧美日本另类| 亚洲黄页一区| 亚洲综合精品自拍| 久久综合九色综合欧美狠狠| 欧美精品一区二区三区四区| 国产精品一区二区三区四区 | 国产美女精品| 亚洲国产精品国自产拍av秋霞| 99re8这里有精品热视频免费 | 亚洲一区国产精品| 久久精品99国产精品日本| 欧美国产大片| 国产目拍亚洲精品99久久精品| 影音先锋中文字幕一区二区| 99在线|亚洲一区二区| 欧美亚洲在线| 一本色道久久综合狠狠躁篇怎么玩 | 欧美日韩国产影片| 国产亚洲网站| 亚洲精品在线观看免费| 欧美亚洲日本国产| av成人免费在线| 久久精品一区四区| 欧美日韩久久精品| 又紧又大又爽精品一区二区| 亚洲私人影吧| 日韩午夜中文字幕| 久久久蜜桃一区二区人| 欧美日韩一区高清| 在线观看的日韩av| 亚洲欧美日韩中文播放| 中日韩午夜理伦电影免费| 久久综合久久综合这里只有精品 | 亚洲高清不卡| 欧美在线视频日韩| 亚洲一区观看| 欧美精品不卡| 在线观看不卡| 欧美亚洲一区二区在线| 亚洲影视在线播放| 欧美激情综合色| 伊人成年综合电影网| 亚洲欧美网站| 亚洲欧美日韩中文播放| 欧美区日韩区| 亚洲电影免费观看高清完整版| 亚洲欧美一区二区三区极速播放| 亚洲图片激情小说| 男人的天堂亚洲在线| 国产一区二区三区久久 | 欧美在线关看| 翔田千里一区二区| 欧美色偷偷大香| 日韩午夜中文字幕| 亚洲日本va午夜在线电影| 久久久久综合一区二区三区| 国产美女精品在线| 亚洲一区在线播放| 亚洲免费中文| 欧美视频1区| 亚洲精品日韩在线观看| 亚洲另类一区二区| 欧美激情一区二区三区 | 亚洲视频免费在线观看| 欧美激情一区二区三区在线视频| 亚洲电影网站| 亚洲欧洲午夜| 麻豆精品视频在线观看| 激情成人综合网| 亚洲二区在线| 免费视频一区| 亚洲东热激情| 亚洲免费不卡| 欧美日本韩国一区二区三区| 91久久精品国产| 日韩亚洲欧美中文三级| 欧美激情一区二区三区四区| 亚洲精品美女在线| 一区二区三区四区五区精品视频| 欧美人与性动交cc0o| 日韩亚洲视频| 亚洲一区综合| 国产九色精品成人porny| 午夜日韩av| 久久五月天婷婷| 亚洲高清一二三区| 一二美女精品欧洲| 亚洲欧美日韩一区二区三区在线观看 | 亚洲精品美女91| 欧美激情一区二区三区高清视频 | 亚洲一区国产一区| 国产精品久久久久久超碰| 亚洲一区二区三区在线播放| 欧美影院成年免费版| 狠狠v欧美v日韩v亚洲ⅴ| 亚洲狠狠婷婷| 欧美噜噜久久久xxx| 一区二区高清视频| 午夜亚洲一区| 国内精品免费在线观看| 亚洲乱码国产乱码精品精天堂| 欧美日产在线观看| 亚洲一区自拍| 久久蜜臀精品av| 91久久极品少妇xxxxⅹ软件| 亚洲一二三区在线观看| 国产欧美日韩精品在线| 亚洲国产精品久久91精品| 欧美片在线播放| 亚洲免费视频在线观看| 老色鬼久久亚洲一区二区| 亚洲欧洲偷拍精品| 亚洲欧美色婷婷| 红桃视频成人| 一区二区免费看| 国产视频精品免费播放| 亚洲欧洲日韩女同| 国产精品捆绑调教| 久久精品日韩| 欧美日韩一级大片网址| 欧美一区二区女人| 欧美另类一区| 欧美一区二区播放| 欧美另类综合| 欧美中文字幕不卡| 欧美日韩小视频| 久久精品国产99精品国产亚洲性色 | 亚洲精品在线视频| 欧美一区二区三区在线视频| 在线精品国精品国产尤物884a| 亚洲国产一区在线观看| 99视频一区二区| 国产精品嫩草99av在线| 亚洲韩国青草视频| 国产精品日韩欧美| 亚洲欧洲精品一区二区三区不卡 | 久久se精品一区二区| 亚洲日本成人| 久久久999成人| 亚洲视频一起| 欧美国产精品久久| 午夜一区不卡| 欧美日韩伊人| 亚洲国产精品热久久| 国产精品日韩二区| 99在线精品观看| 激情亚洲网站| 午夜精品久久久| 日韩视频在线免费观看| 久热综合在线亚洲精品| 亚洲欧美中文另类| 欧美三级韩国三级日本三斤| 亚洲国产精品ⅴa在线观看| 国产精品欧美久久| 99精品国产福利在线观看免费|