基于PER-MATD3的多无人机攻防对抗机动策略研究

摘要：

本文以障碍物随机分布的复杂环境下多无人机攻防对抗机动决策为研究背景，构建了攻防双方运动模型及雷达探测模型，将TD3(Twin Delayed Deep Deterministic policy gradient) 算法扩展到多智能体领域中解决MADDPG(Multi-Agent Deep Deterministic Policy Gradient)算法存在值函数高估的问题；在此基础上，为了提升算法学习效率，结合优先经验回放机制（PER）提出了多智能体双延迟深度确定性策略梯度PER-MATD3(Prioritized Experience Replay Multi-Agent Twin Delayed Deep Deterministic policy gradient algorithm)算法。通过仿真实验表明本文所设计的方法在多无人机攻防对抗机动决策问题中具有较好的对抗效果，并通过对比验证了PER-MATD3算法相较其它算法在收敛速度和稳定性方面的优势。

传统决策方法：

1.比例引导法

优点：实现容易，计算速度快。

缺点：数学模型方法不能适应于有障碍及威胁的复杂强对抗环境中，并且一般需已知目标运动方式，扩展性比较差。

2.人工势场法

优点：将目标和障碍物的速度引入人工势场法中，使得无人机在动态环境下实现避障及目标跟踪。

缺点：需提前了解环境信息，且一般容易陷入局部最优。

3.几何学法

优点：利用阿波罗尼斯圆法来研究不同对抗条件下多追捕者追捕单逃逸者的成功捕获条件。

缺点：一般假定对抗双方能够获取所有对抗信息，且双方初始状态对机动决策影响极大。

4.微分博弈法

优点：微分博弈方法以数学公式形式描述对抗模型，有着严格的推导过程。

缺点：数学求解过程随着对象数量增加变得十分困难。

上述方法在实际条件中存在各自的局限性问题，与实际条件很难对应，无法在多机对抗的复杂高动态场景下取得较好的应用效果。

深度强化学习方法—PER-MATD3

针对存在障碍物的复杂环境下多无人机攻防对抗问题，在考虑无人机雷达探测范围和火力打击范围的情况下，利用深度强化学习算法开展无人机攻防对抗机动决策方法的研究。主要是针对现有较流行的MADDPG算法中存在值函数高估问题，将单智能体TD3算法扩展到多智能体领域，提出了MATD3算法， 缓解了值函数高估问题，从而提高了算法收敛速度；为了进一步加快算法的收敛速度、 提升算法的稳定性，提出了基于优先经验回放机制的PER-MATD3算法。

1 问题描述与建模

环境描述：在有限平面区域内，存在一架蓝方进攻无人机和三架红方防守无人机。

蓝方（进攻方）任务：从初始位置（蓝色小旗）突破防守无人机的阻拦，到达红方基地区域（图中浅红色区域为雷达站等军事目标）。

红方（防守方）任务：从初始位置(红色小旗)去拦截并击毁进攻无人机。

无人机运动学模型：

状态量及控制量约束条件：

雷达探测模型：

2 基于多智能体强化学习的多机攻防对抗

多智能体与环境交互过程

PER-MATD3算法

特点：

沿用TD3算法将动作值函数进行解耦，使用两个Q网络来近似动作选择和动作评估，能够有效解决高估问题，在单智能体中相较DDPG算法一般表现出更好的效果。

MATD3算法有以下几个特点：一是每个智能体不仅有各自的当前策略网络及对应的目标策略网络，还有两个中心化的独立评估网络及对应的目标网络，通过选择较小的 Q 值从而接近真实 Q 值以缓解高估问题；二是为了适用于环境不稳定的情况，采用中心训练分布执行的架构；三是使用策略延迟更新方式，即评估网络在更新一定步数之后再对策略网络进行更新。

优先经验回放机制（PER）是在 DQN 算法中首次提出的，在经验回放时候， 不是简单地随机采样，而是依照每个样本的重要程度对其优先级排序，在抽样时能够更多次的访问重要程度较高的样本，从而能够有效的学习。而样本的重要程度可以利用时间差分法中的 TD-error 进行衡量， TD-error较大的样本被赋予较高的优先级，相反， TDerror 较小的样本被赋予较低的优先级。

3 基于PER-MATD3算法的多无人机攻防对抗机动决策设计

状态空间

进攻方：自身的位置信息、航向角、速度大小、无人机对障碍物及边界的探测信息和目标方向信息。

防守方：除了自身的位置信息、航向角、速度大小、无人机对障碍物及边界的探测信息、进攻目标的方向信息以外，还能通过地面雷达实时了解到其它两架友方无人机与自身的距离信息。

动作空间

无人机的加速度和角速度

奖励函数

进攻方：为了解决稀疏奖励所带来的样本训练效率低下的问题，本实验中奖励函数采用引导型奖励和稀疏奖励相结合的方式。在无人机与环境交互过程中，如果碰撞边界、或者碰撞障碍物、或完成任务，则采用稀疏奖励；这三种情况均不发生的时候，采用引导型奖励。

引导型奖励公式如下所示：

其中，Rd为无人机上一时刻和当前时刻与目标的相对距离的变化量，Rr为无人机的每个探测传感器状态量相对于1的值（x取值0到1，无人机距离障碍物越远，x越大），Rv为无人机当前速度大小所带来的奖励量，Rc为无人机当前航向与最优航向的偏差。

防守方： 考虑加入防守无人机之间的碰撞惩罚，仅当防守无人机之间距离较近时才给予惩罚。

碰撞惩罚公式如下所示：

稀疏奖励公式如下所示：

其中，R1为无人机碰撞战场边界的惩罚，Rok为第 k 种障碍物的半径，dis(*)为二维空间的欧式距离，R2为无人机碰撞障碍物的惩罚，Rt为目标区域的半径，Rf为防守无人机的火力打击距离，R3为无人机完成任务的奖励或任务失败的惩罚，对于进攻无人机到达目标区域则为任务成功，被防守无人机击毁为任务失败，对于防守无人机则相反。

训练算法设计流程

环境参数设置

单个智能体Actor网络结构

单个智能体Critic网络结构

超参数设置

测试结果

总结

本文主要围绕多无人机攻防对抗问题进行了具体研究，建立1对3的环境模型，然后介绍了多智能体强化学习算法的理论推导与设计过程，具体包括MADDPG算法及MATD3算法，并在此基础上详细介绍了基于优先经验回放机制所设计的PER-MATD3算法，将算法与问题相结合使得无人机在环境交互中进行学习。最终仿真实验结果表明，多智能体强化学习算法在多无人机攻防对抗问题上有不错的效果，并且通过四种算法在攻防双方上应用时横向及纵向的实验对比，验证所提出的PER-MATD3算法相较其它三种算法具有更好的训练表现。