地对空武器-目标分配的多目标决策问题研究

许 可,吉兰萍,孙文娟,雷 鸣,高宏宇,叶彩霞

(沈阳理工大学 a.理学院,b.自动化与电气工程学院,沈阳 110159)

信息化战争中,防御方如何有效针对来袭目标进行武器分配是值得研究的科学问题。为使防御方的利益最大化,制定合理的武器-目标分配方案尤为重要。

国内外学者对于武器-目标分配问题的研究较为丰富,石章松等[1]建立了基于最小资源损耗的单目标优化模型。齐长兴等[2]建立了基于突防效能最高的单目标优化模型。张明双等[3]以最小火力浪费为目标建立单目标优化的火力分配模型。相比于单目标模型,多目标模型对实战中战场态势的考虑更贴合实际情况。Gao C Q[4]建立了基于敌方损失最大、导弹成本最小、战斗力损失值最小的多目标优化模型。Xuan H J等[5]建立了效益最大化、资本支出最小化的多目标优化模型,并加入了最佳打击方案。刘丙杰等[6]建立了基于突防概率最高、兵力生存最大的多目标优化模型。张凯等[7]建立了基于武器利用率最大化和目标生存率最小化的多目标优化模型。田伟等[8]建立了使命达成概率最大化、剩余战斗力最大化、行动时长最小化等多目标优化模型。然而上述模型没有考虑防御方武器平台的武器数量约束,易导致防御方因过度防御造成资源的浪费。

非支配排序遗传算法(Non-dominated Sorting Genetic Algorithm,NSGA)由Srinivas N在求解多目标函数时提出[9]。NSGA算法采用的非支配分层方法,可以使优秀的个体有更多的机会遗传到下一代,但计算复杂度高且没有采用精英策略。为降低复杂度、扩大采样空间,Deb K等[10]提出了一种运用拥挤距离和拥挤度对同一非支配等级的个体进行选择的第二代快速非支配排序遗传算法(NSGA-Ⅱ),其基于Pareto最优解实现多目标优化。杨红波等[11]以带精英策略的NSGA-Ⅱ算法对斜齿轮宏观参数进行了多目标优化。齐琦等[12]使用一种改进的NSGA-Ⅱ算法研究了多目标生产智能优化调度,确保种群更快向最优解的方向前进。封硕等[13]将支持强化学习的NSGA-Ⅱ算法应用于无人机多目标三维航迹规划问题,提高了收敛速度和收敛精度。尹爱军等[14]将强化学习与改进的NSGA-Ⅱ算法融合,解决多目标柔性作业车间调度问题。从以上文献研究可以看出,NSGA-Ⅱ算法被广泛运用于解决多目标优化问题。除NSGA-Ⅱ算法之外,Deb K等[15]提出的NSGA-Ⅲ算法是运用分布参考点在高维目标下维持种群多样性的算法,但其相较于NSGA-Ⅱ运行效率较慢,更适用于收敛困难的高维多目标优化。

综上,本文基于NSGA-Ⅱ算法设计地对空武器-目标分配的多目标决策问题,首先考虑防御方的武器数量约束,以敌方所有来袭目标的剩余生存概率最小、我方弹药消耗量的价值最小、敌方对我方资产的损害最小三个目标建立地对空防御武器-目标分配的多目标优化模型,模型虽复杂,但在达到防御目的的同时能有效节约资源,更符合实际战争需求。NSGA-Ⅱ算法存在易于早熟和多样性不足等问题,所以本文设计改进的NSGA-Ⅱ(简称RLNSGA-Ⅱ)算法求解地对空防御武器-目标分配的多目标优化模型,该算法使用强化学习方法动态调整两个种群的个体迁徙参数,并且融合多样性度量指标以增加种群多样性。最后对RLNSGA-Ⅱ算法求得的地对空防御武器-目标分配多目标问题的Pareto解集,利用模糊决策进行方案评价,得出最优的武器-目标分配方案。

1.1 问题描述

地对空防御武器-目标分配问题是指攻击方在空中使用空袭武器(如导弹、无人机、战斗机、歼击机、轰炸机等)尽最大可能摧毁防御方的资源(如武器装备、阵地、重要城市等),而防御方需要合理有效的武器分配决策以保护己方资源。下文中“我方”代表拥有多个武器平台的防御方,“敌方”代表有多个来袭目标的攻击方。通过考虑敌方空中来袭目标的类型、数量、毁伤概率等因素,描述以我方对敌方的毁伤概率最大、我方弹药消耗量的价值最小、我方留存资产最大为目标函数的地对空防御武器-目标分配问题。为简化问题的求解,给出以下假设:

(1)敌方来袭目标和我方武器平台的所有先验信息已明确可知,如毁伤概率矩阵、资产价值矩阵等;

(2)我方每个武器平台的武器类型只有一种;

(3)每个武器-目标交战的结果相互独立,即我方任一武器平台的武器和敌方任一来袭目标交战的结果(如爆炸的毁伤距离)不会影响我方其他武器和敌方其他目标的交战。

表1给出了模型相关参数及变量符号说明。

表1 符号定义表

1.2 建立地对空防御武器-目标分配问题模型

以敌方所有来袭目标的剩余生存概率最小、我方弹药消耗量的价值最小、敌方对我方资产的损害最小为目标函数,以武器平台的武器数量为约束,建立地对空防御武器-目标分配问题模型为

(1)

(2)

(3)

s.t.

(4)

(5)

目标函数(1)表示敌方所有来袭目标的剩余生存概率最小;
目标函数(2)表示我方弹药消耗量的价值最小;
目标函数(3)表示敌方对我方资产的损害最小;
约束条件(4)表示一个武器平台对来袭目标分配的武器数量不会超过该武器平台拥有的武器数量;
约束条件(5)定义了武器平台i分配给来袭目标j的武器数量。

2.1 RLNSGA-Ⅱ算法设计

2.1.1 编码设计

根据我方武器平台和来袭目标的数量关系,采用整数编码。染色体编码为

Z=[z11,z12,…,z1n1,z21,z22,…,z2n2,…,zn1,…,znnn]

(6)

2.1.2 倒位操作生成新个体

编码中同一基因在不同基因位的意义完全不同,通过改变基因位置会形成新的染色体,本文采用倒位操作代替交叉操作生成新个体。若父代染色体为[1,3,7,2,5,4,3,6,2,7,1],在染色体2号位置设倒位点1,6号位置设倒位点2,倒位操作后生成子代染色体为[1,4,5,2,7,3,3,6,2,7,1],如图1所示。

图1 倒位操作示意图

2.1.3 多样性度量

对于多目标问题,非劣解集在近似Pareto前沿上分配越离散越光滑,代表种群的多样性越好,因此采用解间距度量法对种群的多样性进行度量。

设算法搜索到具有Pareto性的前沿解数量为|L|个,则解间距指标Cd定义为

(7)

其中

(8)

(9)

2.1.4 基于强化学习的种群迁徙参数调整策略

智能体(Agent)通过与环境进行交互调整自己的行动策略,最优策略π*的获得是强化学习的最终目的[13]。将NSGA-Ⅱ中的种群作为Agent,最终目标是种群迁徙参数学习,Agent强化学习的状态、动作以及奖赏分别描述如下。

(1)状态

(2)动作

Agent的动作是对种群迁徙参数的调整,包含增加、不变、减少。计算公式为

(10)

式中:β(te)、β(te-1)分别为第te代和te-1代种群的迁徙参数;
Δφ代表种群迁徙参数的变化幅度。

(3)奖励

根据解间距度量值的变化可以决定Agent通过强化学习得到的奖励R,以达成学习最优种群迁徙参数β(te)的目的。奖励计算方式为

表2 强化学习状态集合表

(11)

强化学习Q值表中由不同状态下执行不同动作获得的最大预期未来奖励值构成,奖励初始值均为0,需要在每次迭代时更新,以帮助Agent找到每个状态的最佳动作。Q值的更新方法为

Q(st,aci)←(1-α)Q(st,aci)+
α[r′+γmaxQ(s′,at)]

(12)

式中:Q(st,aci)表示Agent在状态st和动作aci时对应的Q值;
α为学习因子;
γ为折扣率;
maxQ(s′,at)为Agent在状态st下执行某一不同于aci的动作at后转移到下一状态s′获得的最大奖励;
r′为Agent当前选择的动作at作用于环境获得的即时奖励。

2.2 RLNSGA-Ⅱ算法求解地对空防御武器-目标分配问题流程

算法步骤如下。

步骤1:输入n、ni、K、vK、B、V、m、A,设置算法参数,包括最大迭代次数X、初始种群迁徙参数β、种群规模NU、倒位操作概率p倒、多项式变异概率p变、强化学习Q值表、学习率α、折扣率γ,随机初始化两个种群。

步骤2:对两个种群进行快速非支配排序并根据公式(7)计算解间距度量值,染色体编码采用整数编码。

步骤3:分别对种群1和种群2进行不同概率的锦标赛选择、倒位、多项式变异操作,产生下一代种群。

步骤4:将父代种群加入到子代种群中,进行快速非支配排序,通过目标函数上解间距计算拥挤度,再进行选择操作,生成新的种群。

步骤5:判断种群迭代次数是否达到最大迭代次数,若是,结束迭代;
否则转到步骤6。

步骤6:根据公式(7)计算种群1和种群2的解间距度量值,获得表2中状态st。

步骤7:按ε-贪心策略选取动作aci,根据公式(10)更新种群迁徙参数。

步骤8:根据公式(11)和公式(12)分别计算奖励值R和更新强化学习Q值,转到步骤2。

由RLNSGA-Ⅱ算法的运行结果可构建N个Pareto方案,用yh(h=1,2,…,N)表示,则Pareto方案集可表示为Y={y1,y2,…,yN},其中N为RLNSGA-Ⅱ算法得到的地对空防御武器-目标分配方案的总数。记地对空防御武器-目标分配方案yh的第e个目标函数值为geh=ge(yh)(e=1,2,…,M;
h=1,2,…,N),M为地对空防御武器-目标分配问题模型的优化目标个数。

于是,决策矩阵表示为

G=(geh)M×N

(13)

通常情况下,多个目标之间相互冲突,且决策过程中含有决策者的知识经验、判断等模糊信息。为此需要确定方案yh关于目标的优属度fe(yh),记为feh=fe(yh)(e=1,2,…,M;
h=1,2,…,N)。

将目标函数按类型划分为2个子集Zo(o=1,2),分别代表两种目标函数类型:效益型和成本型。

对效益型目标D、J来讲,相对优属度计算式为

feh=geh/(gemax+gemin)(e∈Z1)

(14)

对成本型目标C来讲,相对优属度计算式为

feh=1-geh/(gemin+gemax)(e∈Z2)

(15)

(16)

将决策矩阵G通过式(15)、式(16)变换为目标优属度矩阵f

(17)

现实中目标权重常常未知,需要对目标权重求解以及方案的选优排序。目标权重系数计算公式为

(18)

M个目标权重系数组成目标权重向量,并用ω=(ω1,ω2,…,ωM)T表示。相对优属度矩阵通过公式(19)可转换为加权优属度矩阵

(19)

根据加权优属度矩阵可得地对空防御武器-目标分配方案yh∈Y的目标相对优属度线性加权平均综合值为

(20)

由式(20)可见,对于求得的目标权重向量而言,ρh(ω)越大则地对空防御武器-目标分配方案yh越优。

本节通过实验验证提出的基于RLNSGA-Ⅱ算法求解地对空防御武器-目标分配优化模型的有效性。实验在一台Intel Core i5 1.6GHz CPU和4 GB RAM的个人电脑上测试,使用JetBrains PyCharm Community Edition 2018.2.4软件编程实现。

4.1 各项参数的建立

我方需要保护的资产有5项,资产价值系数(单位资产的价值)如表3所示。

表3 资产价值系数表

我方现有5个武器平台,每一个武器平台仅拥有一种武器类型,各武器平台的武器数量如表4所示。

表4 武器平台拥有武器数量表

敌方有9个来袭目标Tj(j=1,2,…,9),我方防御武器对来袭目标的毁伤概率如矩阵A所示,敌方来袭目标对我方资产的威胁度如矩阵B所示。

我方防御武器平台中单个武器攻打来袭目标需要消耗成本系数(单位武器消耗的成本)如表5所示。

表5 武器平台武器消耗成本

4.2 实验结果及分析

RLNSGA-Ⅱ算法相关参数选取如表6所示,在这些参数下实验,得到的目标函数值较小且迭代次数较少。

表6 RLNSGA-Ⅱ算法相关参数表

4.2.1 实验结果

运行程序20次,算法平均在第60次迭代后找到最优解。从50个Pareto最优方案中选取中间位置的5个方案,有关数据如表7、表8所示。

表7 Pareto最优方案目标函数值表

表8 Pareto最优武器-目标分配方案表

续表8

运用模糊决策方法对所选的5个方案进行选优和排序。

将表7中5个Pareto最优方案,用决策矩阵表示为

由式(17)得本文三个目标函数的目标优属度矩阵为

由式(18)确定目标权重向量ω=(ω1,ω2,ω3),其中

同理计算得到ω2=0.34,ω3=0.33,由式(19)计算可得加权优属度矩阵为

由式(20)计算得到5个方案目标相对优属度线性加权平均综合值向量为

ρ(ω)=(0.60,0.81,0.71,0.79,0.85)

故地对空防御武器-目标分配方案优劣排序为y5、y2、y4、y3、y1,最优分配方案为y5。

最终分配结果为:第一个武器平台中的1号武器攻击来袭目标8,2、3号武器攻击来袭目标2,3号武器不进行攻击;
第二个武器平台中的1、3号武器不进行攻击,2号武器攻击来袭目标8;
第三个武器平台中的1、2号武器攻击来袭目标9,3、5号武器攻击来袭目标3,4号武器攻击来袭目标8;
第四个武器平台中的1~5号武器和7~8号武器不进行攻击,6、9和10号武器攻击来袭目标4、1和6;
第五个武器平台中的1号武器不进行攻击,2、3号武器攻击来袭目标5,4号武器攻击来袭目标7。

4.2.2 算法性能对比

为验证RLNSGA-Ⅱ算法的性能,按上述实验条件将本文提出的RLNSGA-Ⅱ算法与NSGA-Ⅱ算法、NSGA-Ⅲ算法进行对比,结果如图2所示。

图2 Pareto前沿对比图

由图2可以看出,经过RLNSGA-Ⅱ算法求得的Pareto前沿解相比其他两种算法的Pareto前沿解更均匀。

图3、图4、图5分别表示在地对空武器-目标分配的多目标优化模型中目标函数1的D值、目标函数2的C值、目标函数3的J值在NSGA-Ⅱ,RLNSGA-Ⅱ,NSGA-Ⅲ三种算法下随迭代次数增加的进化曲线图。

图3 目标函数1的D值进化曲线图

图4 目标函数2的C值进化曲线图

图5 目标函数3的J值进化曲线图

由图3、图4、图5可见,经过多次迭代,NSGA-Ⅱ算法和NSGA-Ⅲ算法所得的三个目标函数值接近,而RLNSGA-Ⅱ算法所得三个目标函数值均最小,即最好。NSGA-Ⅱ与NSGA-Ⅲ算法求解时,目标函数值C在较劣水平,而在RLNSGA-Ⅱ算法求解时,目标函数值C能取得一个较优的值并趋于稳定(图4)。随进化代数增加,解向Pareto集合中前进。RLNSGA-Ⅱ算法求得的三个目标函数值基本都能在50代前后趋于稳定,优于其他两种算法,说明本文算法收敛快且求得的函数值较优,验证了算法的有效性。

根据实例验证,运用RLNSGA-Ⅱ算法求得了具有Pareto占优的解集,并在其中运用模糊决策方法选取了Pareto最优解中的个别方案进行优劣排序,RLNSGA-Ⅱ算法在求解多目标地对空防御武器-目标分配问题中具有有效性。实验结果表明,目标函数经历较少的迭代次数就能达到收敛并得到近似最优解,大大缩短了求解时间;
地对空防御武器-目标分配中,多目标优化能同时兼顾,达到敌方所有来袭目标的剩余生存概率最小、我方弹药消耗最小、敌方对我方的总损害最小,提高了整体的作战效能。

猜你喜欢 敌方种群分配 山西省发现刺五加种群分布今日农业(2022年15期)2022-09-20少林韦陀十八手少林与太极(2022年6期)2022-09-144打5,敌方还剩几个人?趣味(数学)(2022年3期)2022-06-021种新型燃油分配方案设计航空发动机(2020年3期)2020-07-24Crying Foul汉语世界(The World of Chinese)(2019年3期)2019-07-01遗产的分配数学大王·趣味逻辑(2019年5期)2019-06-13水果大作战儿童时代·快乐苗苗(2018年7期)2018-09-03“最大持续产量”原理分析生物学教学(2018年3期)2018-08-08由种群增长率反向分析种群数量的变化中学生物学(2018年8期)2018-03-01人工智能有助于处置敌方炸弹无人机(2017年10期)2017-07-06

推荐访问:目标 决策 分配