您好、欢迎来到现金彩票网!
当前位置:秒速快三开奖 > 双机协同 >

基于q学习的双机协同探测路径规划方法 dual-aircraft cooperativ

发布时间:2019-06-30 04:57 来源:未知 编辑:admin

  基于q学习的双机协同探测路径规划方法 dual-aircraft cooperative path ..

  doi:10.3969/j.issn.1671 -637X.2014.08.004 基于 建立双机协同被动探测的任务模型,运用模糊理论对问题状态空间进行泛化,针对不同的探测阶段给出了目标转移函数的不同形式,通过合理定义动作空间和奖励函数将问题描述为Markov 决策过程。 给出了双机协同被动雷 达探测的模糊Q 学习算法,并对算法进行仿真,仿真结果表明,该方法能够有效控制双机的飞行路径,实现对机动及 非机动目标的有效探测。 关键词: 双机协同; 路径规划; 模糊Q 学习; 目标探测 中图分类号: V271.4; TP391.9文献标志码: A文章编号: 1671 -637X(2014)08 -0015 -05 DualAircraft Cooperative Path Planning Based LearningWU Yanrui 敞WUYouli 敞DINGWei 敞CHAIDong InformationEngineering 敞Shaanxi University Technology敞Xi摧an 710021敞China; 2.Engineering College Astronautics敞Air Force Engineering University敞Xi摧an 710038敞China) Abstract: Based radiationarea activeradar敞the task model setup.By using fuzzy theory statespace敞providing different transition functions according differentdetecting stages properlydefining actionspace rewardfunction敞the problem MarkovDecision Process (MDP).Details presented.Simulationstudies indicate proposedalgorithm can provide adaptive strategies flightpaths nonmaneuvering maneuveringtarget detection Keywords: dualaircraft coordination; path planning; fuzzy learning;target tracking 0引言 采用运动可控平台对辐射源进行定位是被动探测 体制经常采用的方法,由于单个平台只能报告其接收 到信号的到达方位和到达时间,所以通常采用多平台 协同的方式利用三角定位法 对目标进行定位。实现 被动探测时有可能使载机暴露在目标的攻击范围内, 遭到目标机载武器的攻击。 如何在保证载机安全的情 况下实现对目标的定位是实现被动探测必须解决的问 此外,双机组成的被动探测系统还受到通信距离、目标辐射控制 等因素的限制和影响,所以,寻找合适的控制策略以规划载机的飞行路径对实现双机协同被 收稿日期:2013 -09 -03修回日期:2013 -12 -25 基金项目:国家自然科学基金(60874040); 陕西省自然科学基金 (2014JQ8339) 作者简介:吴彦锐(1981 —),女,山西高平人,硕士,讲师,研究方向 为自动控制。 动目标探测十分重要。 目前,用以解决飞行路径规划问题的方法主要有 两种。 第一种是基于模型的优化方法:文献[3]基于搜 索理论方法,采用搜索域上的“回报率”状态图,实现了 多UAV 协同中的搜索路径规划;文献[4]建立了多UAV 被动雷达传感器目标跟踪框架,通过建立误差协方差最 小和信息最大两个指标分别计算了UAV 的航迹;文献 [5]研究了多UAV 广域目标搜索的协同控制问题,其飞 行控制策略通过建立目标发现收益、环境搜索收益和协 同收益指标得到。 第二种方法是基于多智能体的飞行 路径规划方法:文献[6]建立了多Agent 协同探测问题 的通用框架,以“目标搜索图”的形式存储环境信息,并 基于搜索图在线计算UAV 的飞行轨迹;文献[7]在有限 感知范围内采用多 Agent 协商机制实现了多 UAV 同搜索路径决策。基于模型优化方法的效果在很大程 度上依赖于所建立模型的精确程度;基于多智能体的 方法则相对灵活,它不依赖于所建模型,通过合理地构 ElectronicsOptics ControlVol.21No.8 Aug.2014 建Agent,利用Agent与环境交互过程中获得的相关信 息实现对载机飞行路径的规划。 强化学习是多智能体 理论中一种常用的Agent 控制方法,其中,Q 学习方法 堪称经典,它不依赖于模型、在线更新策略的优点使得 其在众多领域获得广泛应用 习方法解决载机飞行路径的规划问题。1双机协同被动雷达探测任务模型 双机协同被动探测的相对几何态势如图1 所示。 这里假设执行被动探测任务的载机天线指向与其航向 相同,被动雷达的最大搜索方位角为2φ ,最大探测距离为Dp 定义目标视线Fi FT 及长度 Ri ;目标方位角 图1双机协同被动探测态势Fig.1The engagement geometry cooperativetarget detecting 如图1 所示,双机协同被动雷达探测就是利用任 ,结合已知的双机距离|F1 F2 |,在三角形F1 F2 FT 中利用正弦定理对目标 进行定位。可见,任务机在探测过程中的任务可以 分为2 个阶段来实施:1)搜索阶段,主要解决如何发现 目标的问题;2)定位阶段,该阶段主要解决如何提高探 测精度的问题。 对于搜索阶段,要完成发现目标的任务,必须规划 任务机的飞行轨迹使得任务机被动雷达传感器能够接 收到目标的辐射信号,即进入目标的主动雷达动态照 射区,应满足 对于定位阶段,给出任务机进入目标主动雷达主瓣照射区接收信号应满足的条件为 whenRi Dw 为防止形成V型基线应满足的约束条件为 x2-x1 xT-x1 xT-x2 表示任务机1、任务机2及目标的状态。 此外,任务执行过程中还应满足一个约束条件,即 任务机之间的距离应不超过载机间数据通信的最大距 2双机协同被动雷达探测的MDP模型 一个完整的马尔可夫决策过程(Markov Decision Process,MDP)问题描述包括4 个部分,分别为问题的 状态空间、动作空间、转移函数和奖励函数,下面分别 进行定义。 2.1状态空间 2.1.1基于相对态势的状态空间划分 本文主要研究0 |<90的被动探测问题,进行分析可以将原状态空间按任务机与目标态势划分为 >DdDw <Ri Dd |<90Dw <Ri Dd |qi|180, 与目标的状态空间xT 到一个新状态空间S 的对应关系,记为 2.1.2状态空间的模糊近似本文并不直接利用xF 和xT进行原状态空间到新 状态空间的映射,而是通过x 计算出目标的相对态势关系(R 文献[11]指出为了保证近似Q 值函数收敛,每个隶属度函数必须在唯 一点取得最大值,三角形隶属度函数满足该要求,以状 态分量Ri 为例给出具体的隶属度函数,可表示为 ξ1,1(Ri =max0,min Rd-Rw =max0,min Ri -Rw Rd -Rw 其他3个状态分量的隶属度函数ξ(θ 的计算方法与Ri 相同,限于篇幅,这里不再 赘述。 得到各状态分量的隶属度函数后,通过乘积推理 就能得到状态变量x 这样就实现了原状态空间的模糊近似,它能够实现一个状态与邻近状态之间的泛化,当某个动作能够在该 状态获得较高的Q 值时,同样也会给邻近状态带来合 理的决策。 2.2动作空间 假设任务机速度大小不变为V,只进行航向控制, 任务机航向的控制方程为 M};Ui为任务机Fi 的动作空间,规定逆时针方向旋转 为正时表示任务机逆时针旋转、为负时则为顺时针旋转,为0 时表示其保持原来航向;Δβ max 任务机的最大旋转角度,它受自身可用过载的限制。2.3转移函数 对于任务机i 与目标组成的系统在状态sj 时采用 动作u +1)=sj′|s (11)式中:sj ,sj′S;u 为目标动作。假设载机所选的动作不会对目标的运动产生影 )可以进一步表示为pi (sj′|sj =pi(sj′|sj )pi(sj′|sj (12)当处于搜索阶段时,记搜索阶段区域的中心为 ,则可以假设目标下一时刻的状态s′T服从以C (13)当处于定位阶段时,由于任务机可以根据目标的 辐射信号获得目标的当前状态 ,则可以假设目标下一时刻的状态s′T 服从以当前状态sT 为中心、σT 为强度 的正态分布,即此时目标的状态转移函数可表示为 pi (sj′|sj ds′T(14) 这样获得目标的状态转移函数后代入式(17) 就可以 获得任务机与目标组成的系统的状态转移函数,确定 系统下一时刻的状态s 2.4奖励函数根据状态空间的定义,系统的奖励函数可以采用 下列确定形式 (15)式(15)表明,当任务机无法获取目标辐射信号时 得到的奖励信号为-1,当任务机天线接收范围进入目 标主动雷达动态照射区时,得到的奖励信号为1,进入 目标雷达主瓣照射区时得到的奖励信号为5,而一旦 进入目标武器威胁区后得到的奖励信号为-5。 3模糊Q 学习算法 经典Q 学习算法的核心思想是状态动作对的最 优值函数为即时奖励与在下一状态x′i 获得最优值的折 (16)式中,γ[0,1],为折扣因子。 最优策略为在每一状态使得值函数最优的动作的 集合,即 =argmax (17)完成状态空间的模糊近似和动作空间的划分后, 可采用下面线性权值函数对上述值函数进行逼近 [13] 即为归一化后的隶属度函数,其值为 (19)结合前面对双机协同探测任务的分析,可以将上 述过程进一步描述为找到满足约束条件式(3) 图2双机协同被动探测的模糊Q学习算法 Fig.2Fuzzy learningalgorithm dualaircraftflight path planning 算法进行过程中每架任务机均进行各自 ~式(5),若满足则继续进行Q学习算法,若不满 足则需要返回上一步重新选择u (k),当满足该条件时才转入下一步。 ζ为一个很小的正数,表示当Ω值 基本稳定时则停止迭代,输出控制策略。 4仿线仿真参数 仿真时的参数设置:任务机与目标在欧式空间中的 坐标满足0 kmX200 km, -10 kmY10 km。任 务机被动雷达的有效探测距离 Dp =200 km,最大搜 索方位角为2φ =60。目标主动雷达的最大作用距 =100km,最大动态视场角2φ 60km,最大离轴发射角2φ =120。任务机与目标速 度大小均为200 m/s,任务机与目标的初始态势按照(X 坐标,Y 坐标,航向)格式设为两组,分别为:1)F km,-2.5 km,0),F2 km,2.5km,0),FT (150 km,0 km, 180);2)F km,-2.5 km,0),F km,2.5km,0), (150km,6 km,180)。 取200。任务机F 具有相同的离散化动作空间,共包含5 个动作,为U -3,-1.5,0, 1.5,3}。 模糊 =0,最大学习步数k=500,终止条件 ζ=0.01,仿真步长T 这样,根据前面对任务机与目标坐标的限制,可以粗略地估算出原始状态空间 的大小至少为1 10 ,再与动作空间相联系,则可得状态-动作对的数目不少于5 10 从理论上分析,若运用标准Q 学习算法,每一步迭代都要更新的Q 目庞大,不能满足实时规划的要求,下面的仿真对比将进一步说明该问题。 4.2结果分析 分别运用标准Q 学习算法与模糊Q 学习算法对 初始态势1)和态势2)进行了仿线)条件下目标保持匀速直线运动时双机协同探测的仿线)条件下目标机动时双机协同探测的仿线双机协同被动探测规划路径 Fig.3The planned flight path dualaircraft nonmaneuveringtarget 图4奖励值及定位精度变化曲线GDOP nonmaneuveringtarget twoaircrafts 可以看出,按照本文提供的方法,双机对无机动目标的被动定位可以分搜索、跟踪定位及逃离3 个阶段。 在搜索阶段,双机在每一时刻的运动方向相 反,即双机分别对不同的区域进行搜索,这样提高了发 现目标的概率。 跟踪定位阶段的仿真曲线表明双机能 学习的双机协同探测路径规划方法够稳定地跟踪目标主动雷达的主瓣照射区,实现对目 标的有效定位,图4 的GDOP 变化曲线的实线部分(虚 线为按照仿真中双机和目标位置计算出的GDOP 实际过程中由于无法获得目标辐射信号而无法计算,故用虚线表示)表明按照规划路径,双机对目标的定位 误差持续下降,最终保持在3.03 左右直至进入目标武 器威胁区后受到惩罚而逃离。 的双机的奖励函数变化曲线也反映了该过程,即搜索阶段由于无目标信 号奖励一直为负,而后从进入目标主动雷达动态照射 区到主瓣照射区奖励逐渐增加,当进入目标威胁区后 再次下降,它表明文中定义的奖励函数能够有效反映 双机被动雷达的探测任务。 图5目标机动时双机协同被动探测规划路径 Fig.5The planned flight path dualaircraft maneuveringtarget 图6定位精度及奖励值变化曲线GDOP maneuveringtarget twoaircrafts 可以看出,存在目标机动时的双机路径规划要比目标无机动时复杂,整个过程大致可分为搜索、跟 踪定位、再搜索、再跟踪定位及逃离5 个阶段。 当目标 机动时,双机组成的被动探测系统能够适应目标的变 化,经过再搜索后仍能实现对目标的有效跟踪定位。 的GDOP变化曲线反映出定位精度在经过变化后最终 下降到9.66 左右。 的双机奖励函数变化曲线表明文中定义的奖励函数对跟踪机动目标同样具有适用性。 将标准Q学习算法与模糊Q 学习算法进行 了性能比较,可以看出,标准Q 学习算法无论是在初 始态势1)还是初始态势2)条件下的计算时间都远大 于模糊Q 学习。 标准 学习每一时间步都必须在线完成所有状态动作对的更新,无法满足路径实时规划 的要求。 模糊Q 学习通过离线时计算出各个初始状 态的隶属度,然后在线时只需对新状态进行隶属度判 断,更新的状态动作对数目仅为5 =25,因此能够实现对路径的实时规划。 表1不同算法的性能比较 Table 1Standard (SQ)learning (FQ)learning 初始态势1)离线) 离线 在线 标准Q 学习算法 模糊Q学习算法 450 263 621 2825结束语 本文研究了将模糊 学习算法引入二维情况下的双机协同被动探测路径规划问题。 通过对双机协同 被动探测问题的过程和目的进行分析,抽象出相对态 势表示的任务机和目标组成系统的状态,在合理定义 模糊隶属度函数的情况下实现了状态空间的高度泛 在合理定义动作空间、转移函数及奖励函数的基础上给出了双机协同被动探测路径规划的模糊 习算法,并对算法在目标匀速直线运动及机动条件下的性能进行了仿真。 仿真结果表明,本文所提算法能 够实现对目标的有效跟踪定位,当目标机动时,算法能 够保证任务机对环境改变的良好适应性。 参考文献 [1]RICHARD P.Electronicwarfare target location methods [M].Boston:Artech House敞2005. KRISHNAMURTHYV.Emission management lowpro babilityintercept sensors networkcentric warfare IEEETransactions ElectronicSystems M.Asearchtheoretic approach cooperativecontrol uninhabitedair vehicles AIAAGuidance敞Navigation敞and Control Conference敞2002: W.Decentralizedestimation using informa tion consensus filters multistatic UAV radar track ing system[D].Hawaii:Brigham Young University敞2009. PENGH敞SU F敞SHEN C.Extendedsearch map ap proach multipleUAVs wide area target searching SystemsEngineering Electronics敞2010敞32 (4):795 798. [6]POLYCARPOU M.Aco operativesearch framework distributedagents simultaneousarrival multipleUAVs J].ActaAeronautica Et Astronautica Sinica敞2010敞31( 797805. [7]ZHAO Y敞ZHOUR.Cooperative guidance multimis sile salvo attack ].ChineseJournal 2008敞21(6):533539.[8]张庆杰.基于一致性理论的多UAV 分布式协同控制与 状态估计方法[D].长沙:国防科学技术大学,2011. ZHANG J.Distributedcooperative control statementestimation networkedmultiple UAVs based sustheory[D].Changsha:National University DefenseTechnology敞2011. [9]LI J敞XU S敞CHU Y敞et al.Distributed average consensus control agentsusing outdated states IETControl Theory Applications敞2010敞4(5):746758.[10] SABER M.Consensusproblems switchingtopology timede lays ].IEEETransactions AutomaticControl 2004敞49(9):15201533.[11]杨军,朱学平,朱苏朋,等.飞行器最优控制[M].西 安:西北工业大学出版社,2011. YANG J敞ZHU P敞etal.Optimal control aircraft[M].Xi摧an:NorthwesternPolytechnical University Press敞2011. [12]冯新磊.符号矩阵和多智能体系统一致性研究[D]. 成都:电子科技大学,2011. FENG signpattern matrix multiagentsystems D].Chengdu:University Electronic Science Technology敞2011.[13]CAO Y敞REN W敞CHEN Q.Multiagentconsensus using both current outdatedstates //IFACWorld Con gress敞Seoul敞Korea敞2008:28742879. [14]陈岩,苏菲,沈林成.概率地图UAV 航线规划的改进 型蚁群算法[J].系统仿线. CHEN Y敞SU F敞SHEN C.Improvedant colony algo rithm based UAVroute planning [J].Journal SystemSimulation敞2009,21(6):16581666. (上接第14 V敞GUNZINGERM敞KREPINEVICH F敞etal. Airsea battle:A pointofdeparture operational concept[R]. The Center BudgetaryAssessments敞2010. [7]黄柯棣,刘宝宏,黄健,等.作战仿真技术综述[J].系 统仿线. HUANG H敞HUANGJ敞et al.A survey military simulation technologies [J].Journal SystemSimu lation敞2004敞16(9):18871895. [8]军事科学院.中国人民解放军军语[M].北京:军事科 学出版社,2011. Academy MilitarySciences.PLA military language[M]. Beijing:Military Science Press敞2011. [9]丁笑亮,陈树新,毛玉泉.MC 法与QA 法在通信系统仿 真中的应用比较[J].计算机仿线. DING comparison MCmethod QAmethod communicationsystem[J].Computer Simulation敞2010敞20 (7):6568. [10]刘宝宏,黄柯棣.多分辨率建模的研究现状与发展 [J].系统仿线. LIU L.Multiresolutionmodeling:Present status SystemSimulation敞 2004敞16(6):11501153. [11]陈建华,李刚强,傅调平.基于多分辨率的海军作战仿 真建模研究[J].系统仿线. CHEN mulidistinguishmodeling warshipformation operation simulation SystemSimulation敞2009敞21(22):73167319. (上接第19 IEEEInternational Symposium IntelligentControl L.MultipleUAV search using agent based negotiation scheme //AmericanControl Confer ence敞2005:29953000. [8]WIERING M敞SCHMIDHUBER R.Fastonline MachineLearning敞1998敞33(1):105115. [9]MILLAN R敞POSENATOD敞DEDIEU E.Continuous action Qlearning ].MachineLearning敞2002敞49 3):247265.[10] TORRIERI J.Statisticaltheory passivelocation sys tems[J].IEEETransactions nicSystems敞1984敞AES20(2):183198. [11]TSITSIKLIS V.Featurebasedmethods largescale dynamic programming J].MachineLear ning敞1996敞22(13):5994. [12] GAO X敞FANG G敞etal.Angle precision study dualaircraftcooperatively detecting remote tar passivelocating method //IEEEInternational Conference SignalProcessing敞Communication Computing敞2011:11741178.[13]BUSONIU L敞BABUSKA R敞SCHUTTER D敞etal.Re inforcement learning dynamicprogramming using function approximators[M].Florida:Automatic Control EngineeringSeries敞CRC Press敞2010:4951.

http://cellmall.net/shuangjixietong/269.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有