2026年IEEE TSMC，基于Q学习平衡全局与局部搜索的防空资源分配问题进化算法，深度解析+性能实测

1.摘要

针对现代防空武器系统协同运筹的高复杂度难题，本文构建了贴近真实战场环境防空资源分配问题（ADRAP）。为克服该问题决策空间稀疏、系统约束复杂及高实时性要求的瓶颈，本文提出一种融合Q学习进化算法，建立了一种自适应机制能依据当前种群状态动态切换并抉择最优局部搜索策略，以实现全局探索与局部开发动态平衡；同时，协同引入了知识引导搜索方法，显著提升了局部收敛效率。

2.问题描述

ADRAP包含雷达与导弹车辆约束，模型设定了二维常量速度轨迹及静态部署等基础假设。区别于传统静态目标函数，本文设计了一种依据敌我火力对比动态调整自适应目标函数 F ( x ) F(x) F(x):在非饱和攻击(目标数 N I ≤ N_I\leq NI≤
∑ m ∈ M θ m \sum_{m\in M}\theta_m ∑m∈Mθm)时平衡拦截价值与作战成本；在饱和攻击(目标数 N I > ∑ m ∈ M θ m N_I>\sum_{m\in M}\theta_m NI>∑m∈Mθm)时则以最大化拦截价值为唯一目标

F ( x ) = I ( V ( x ) − C ( x ) ) + I ~ ( V ( x ) ) F(x)=\mathbb{I}(V(x)-C(x))+\tilde{\mathbb{I}}(V(x)) F(x)=I(V(x)−C(x))+I~(V(x))

s . t . V ( x ) = ∑ i ∈ I v i ⋅ $1 - \prod k = 1 N i ( 1 - p i k \cdot \sum m \in M x i m k )$ \mathrm{s.t.}\:V(x)=\sum_{i\in I}v_i\cdot\left $1-\\prod_{k=1}\^{N_i}\\left(1-p_i\^k\\cdot\\sum_{m\\in M}x_{im}\^k\\right)\\right$ s.t.V(x)=i∈I∑vi⋅ $1-k=1\prodNi(1-pik\cdotm\inM\sumximk)$

3.提出的算法

本文提出一种基于Q学习平衡全局与局部搜索进化算法（QGLEA），通过概率随机采样初始化种群；利用锦标赛选择及遗传算子进行全局搜索；依托Q学习机制在四种策略间动态切换，并结合战场态势知识引导自适应局部搜索。

编解码方案

编码阶段 列举并对各目标的所有可行雷达与导弹组合进行编号，依据目标紧急程度，动态结合剩余资源状态，顺序为各目标挑选组合以构建拦截方案，无法拦截者标记为放弃。解码阶段依次验证各目标组合是否满足约束，若满足则分配雷达占用与导弹发射时间，否则放弃该拦截。

自适应切换机制

基于Q学习设计自适应切换机制以动态调控搜索策略。算法定义了四种动作：无局部搜索(Act.1)、无累积变化局部搜索 (Act.2)、有累积变化局部搜索 (Act.3)及基于局部估计的搜索 (Act.4) 。依据相邻两代前30%优良个体的收敛性 (CS)与多样性 (DS)增量，将种群状态划分为低收敛低多样 (Sta.1)等四类。随后根据Q表以轮盘赌概率选择动作，并依据状态更新奖励函数：

Q t + 1 ( S t a , A c t ) = ξ × Q t ( S t a , A c t ) + ( 1 − ξ ) × ( r e c + r e d ) Q_{t+1}(Sta,Act)=\xi\times Q_t(Sta,Act)+(1-\xi)\times(r_{ec}+r_{ed}) Qt+1(Sta,Act)=ξ×Qt(Sta,Act)+(1−ξ)×(rec+red)

知识引导局部搜索方法

知识提取阶段构建目标知识向量 V T K V_{TK} VTK与导弹车辆余量向量 V M K V_{MK} VMK。概率计算阶段，依据两向量通过下式建立目标与导弹车辆的采样概率分布，优先锁定漏截目标及高弹药余量车辆以压缩搜索空间

p r o i = V T K i ∑ j = 1 N I V T K j \mathrm{pro}i=\frac{V{TK}^i}{\sum_{j=1}^{N_I}V_{TK}^j} proi=∑j=1NIVTKjVTKi

p r o i ′ = V M K i + 10 − 6 ∑ j = 1 N M ( V M K j + 10 − 6 ) \mathrm{pro}i^{\prime}=\frac{V{MK}^i+10^{-6}}{\sum_{j=1}^{N_M}(V_{MK}^j+10^{-6})} proi′=∑j=1NM(VMKj+10−6)VMKi+10−6

资源分配阶段，按概率重置被选目标的资源组合，并重新匹配高概率车辆的可行雷达弹药组合。

4.结果展示

5.参考文献

Balancing Global and Local Search via Q-Learning in Evolutionary Algorithms for Air Defense Resource Assignment Problems