《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 用于巡航導彈突防航跡規劃的改進深度強化學習算法
用于巡航導彈突防航跡規劃的改進深度強化學習算法
2021年電子技術應用第8期
馬子杰,高 杰,武沛羽,謝擁軍
北京航空航天大學 電子信息工程學院,北京100191
摘要: 為了解決巡航導彈面臨動態預警機雷達威脅下的突防航跡規劃問題,提出一種改進深度強化學習智能航跡規劃方法。針對巡航導彈面對預警威脅的突防任務,構建了典型的作戰場景,給出了預警機雷達探測概率的預測公式,在此基礎上設計了一種引入動態預警威脅的獎勵函數,使用深度確定性策略梯度網絡算法(Deep Deterministic Policy Gradient,DDPG)探究巡航導彈智能突防問題。針對傳統DDPG算法中探索噪聲時序不相關探索能力差的問題,引入了奧恩斯坦-烏倫貝克噪聲,提高了算法的訓練效率。計算結果表明,改進的DDPG算法訓練收斂時間更短。
中圖分類號: TN959.1;TP181
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.211934
中文引用格式: 馬子杰,高杰,武沛羽,等. 用于巡航導彈突防航跡規劃的改進深度強化學習算法[J].電子技術應用,2021,47(8):11-14,19.
英文引用格式: Ma Zijie,Gao Jie,Wu Peiyu,et al. An improved deep reinforcement learning algorithm for cruise missile penetration path planning[J]. Application of Electronic Technique,2021,47(8):11-14,19.
An improved deep reinforcement learning algorithm for cruise missile penetration path planning
Ma Zijie,Gao Jie,Wu Peiyu,Xie Yongjun
School of Electronics and Information Engineering,Beihang University,Beijing 100191,China
Abstract: Aiming at the problem of cruise missile penetration trajectory planning under the threat of dynamic early of warning aircraft radar, an improved deep reinforcement learning intelligent trajectory planning method is proposed. Firstly, aiming at the penetration mission of cruise missiles facing early warning threats, a typical combat scenario is constructed, and a prediction formula of radar detection probability of early warning aircraft is given. On this basis, a reward function that introduces dynamic early warning threats is designed, and the deep deterministic policy gradient algorithm(DDPG) is used to explore the intelligent penetration of cruise missiles. And then, in response to the poor exploration ability of the traditional DDPG algorithm that explores the uncorrelated timing of noise, Ornstein-Uhlenbeck noise is introduced to improve the training efficiency of the algorithm. The simulation results show that the improved DDPG algorithm training convergence time is shorter.
Key words : cruise missile;deep deterministic policy gradient algorithm;penetration strategy;deep reinforcement learning

0 引言

    巡航導彈是一種能機動發射、命中精度高、隱蔽性強、機動性能強的戰術打擊武器,但近年來由海陸空防御武器整合得到的體系化信息化反導防御系統態勢感知能力和區域拒止能力都得到了極大的提升,巡航導彈的戰場生存能力受到威脅,提升巡航導彈規避動態威脅的能力成為其能否成功打擊目標的關鍵[1-3]。傳統的巡航導彈航跡規劃方法中將雷達威脅建模為一個靜態的雷達檢測區域,這難以適應對決策實時性要求較高的動態戰場環境,而且其缺乏探索先驗知識以外的突防策略的能力,需要研究能應對動態對抗的巡航導彈智能航跡規劃算法。

    深度強化學習是人工智能領域新的研究熱點[4-6]。隨著深度強化學習研究的深入,其開始被應用于武器裝備智能突防,文獻[7]利用深度強化學習提出了一種新的空空導彈制導律,提高了打擊目標的能力。文獻[8]針對目標、打擊導彈、攔截導彈作戰問題,探究了是否發射攔截導彈、攔截導彈的最佳發射時間和發射后的最佳導引律。文獻[9]利用深度價值網絡算法探究了靜態預警威脅下的無人機航跡規劃問題,提升了航跡規劃的時間。文獻[10]將雷達威脅建模為一個靜態的雷達檢測區域,在二維平面探究了巡飛彈動態突防控制決策問題,提高了巡飛彈的自主突防能力。




本文詳細內容請下載:http://www.jysgc.com/resource/share/2000003690




作者信息:

馬子杰,高  杰,武沛羽,謝擁軍

(北京航空航天大學 電子信息工程學院,北京100191)




wd.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 最近中文字幕mv高清在线视频 | 豆国产96在线|亚洲| 国产精品揄拍100视频| a级毛片毛片免费观看久潮喷| 成人欧美一区二区三区的电影| 久久机热这里只有精品无需| 欧美xxxx18动漫| 亚洲欧美日韩一区| 狠狠精品久久久无码中文字幕| 午夜时刻免费实验区观看| 蜜桃AV无码免费看永久| 国产成人精品免费视频大全办公室| 1000部啪啪未满十八勿入免费| 在线播放免费人成毛片试看| s女m男调教337799| 帅哥我要补个胎小说| 中文字幕一区二区三区精彩视频 | 日本精品少妇一区二区三区| 五月天综合网站| 欧美fxxx性| 亚洲人成免费网站| 欧美日韩一区二区不卡三区| 亚洲理论片中文字幕电影| 热re99久久精品国产66热| 免费一级黄色录像影片| 精品一区二区AV天堂| 午夜体验试看120秒| 美女女女女女女bbbbbb毛片| 国产V亚洲V天堂无码久久久| 蜜芽亚洲欧美一区二区电影 | 日韩免费在线视频| 久久综合九色综合网站| 最近中文字幕2019高清视频| 亚洲av无码一区二区三区电影| 欧美乱xxxxxxxxx| 亚洲午夜精品久久久久久人妖| 欧美日产国产亚洲综合图区一| 亚洲欧美日韩久久精品第一区| 永久免费无内鬼放心开车| 亚洲精品无码久久| 正在播放乱人伦|