2024年Neurocomputing，基于聚类超启发式算法+异构无人机多区域覆盖路径规划

1.摘要

本文研究异构多 UAV 覆盖路径规划，提出基于聚类超启发式算法，先把待覆盖区域建成全连接图，用谱聚类切成多个子图并分配给不同 UAV；强化学习驱动超启发式算法用 GNN 参数化启发式信息，并由优化目标给出奖励，自动改进启发式度量，减少专家规则和手调参数带来的低效与次优。实验表明，该方法在任务完成时间、算法执行时间和偏差率上均优于对比方法。

2.预备知识与系统建模

问题描述

设 UAV 集合为 τ = { τ 1 , τ 2 , ... , τ a } \boldsymbol{\tau}=\{\tau_1,\tau_2,\ldots,\tau_a\} τ={τ1,τ2,...,τa}，待覆盖区域为 ξ = { ξ 1 , ξ 2 , ... , ξ b } \boldsymbol{\xi}=\{\xi_1,\xi_2,\ldots,\xi_b\} ξ={ξ1,ξ2,...,ξb}。异构 UAV 从同一初始区域出发。忽略外形、尺寸和底层控制，仅考虑机动与扫描能力。UAV τ i \tau_i τi 的参数为 C τ i = { v i , h i , θ i , α i , β i } C_{\tau_i}=\{v_i,h_i,\theta_i,\alpha_i,\beta_i\} Cτi={vi,hi,θi,αi,βi}，分别表示飞行速度、高度、俯仰角、传感器水平视场角以及视场与 UAV 纵轴夹角。扫描覆盖宽度为

e i = 2 h i sin ⁡ ( β i − θ i ) tan ⁡ α i 2 e_i=\frac{2h_i}{\sin(\beta_i-\theta_i)}\tan\frac{\alpha_i}{2} ei=sin(βi−θi)2hitan2αi

用三维变量 c j , k i c^i_{j,k} cj,ki表示轨迹。若 τ i \tau_i τi从区域 ξ j \xi_j ξj移至 ξ k \xi_k ξk，则 c j , k i = 1 c^i_{j,k}=1 cj,ki=1，否则为 0。区域 ξ j \xi_j ξj的覆盖时间为

T j i = s j e i v i T^i_j=\frac{s_j}{e_i v_i} Tji=eivisj

其中， s j s_j sj为区域面积。从 ξ j \xi_j ξj到 ξ k \xi_k ξk的转移时间为

T j , k i = g j , k v i T^i_{j,k}=\frac{g_{j,k}}{v_i} Tj,ki=vigj,k

其中， g j , k g_{j,k} gj,k为两区域距离。

目标与约束

为避免重复扫描，每个区域只由一架 UAV 扫描，且对任一区域只存在一条进入路径和一条离开路径：

∀ j ∈ $1 , b$ , ∑ i = 1 a ∑ k = 1 b c j , k i = 1 , ∑ i = 1 a ∑ k = 0 b c k , j i = 1 \forall j\in $1,b$ ,\quad \sum_{i=1}^{a}\sum_{k=1}^{b}c^i_{j,k}=1,\qquad \sum_{i=1}^{a}\sum_{k=0}^{b}c^i_{k,j}=1 ∀j∈ $1,b$ ,i=1∑ak=1∑bcj,ki=1,i=1∑ak=0∑bck,ji=1

被选中执行任务的 UAV 数量不超过可用 UAV 总数：

∀ i ∈ $1 , a$ , ∑ j = 1 b c 0 , j i ≤ a \forall i\in $1,a$ ,\quad \sum_{j=1}^{b}c^i_{0,j}\le a ∀i∈ $1,a$ ,j=1∑bc0,ji≤a

多 UAV 任务完成时间由最后完成任务的 UAV 决定。若 b i b_i bi为分配给 τ i \tau_i τi的区域数，则其扫描与转移总耗时为

T ( τ i ) = ∑ j = 0 b i ∑ k = 1 b i ( T j i + T j , k i ) T(\tau_i)=\sum_{j=0}^{b_i}\sum_{k=1}^{b_i}\left(T^i_j+T^i_{j,k}\right) T(τi)=j=0∑bik=1∑bi(Tji+Tj,ki)

优化目标是最小化最大 UAV 完成时间：

f ( s ) = min ⁡ max ⁡ i ∈ $1 , a$ T ( τ i ) f(s)=\min\max_{i\in $1,a$ }T(\tau_i) f(s)=mini∈ $1,a$ maxT(τi)

3.提出的算法

**CBHHA 包含能力评估、任务分配和优化求解三阶段。**先评估异构 UAV 性能，把待覆盖区域建成无向加权图；用聚类切分图并分配给 UAV，使子图内联系紧、子图间联系弱，从而均衡负载；最后用 GNN 学习启发式度量，结合蚁群搜索得到各 UAV 的访问顺序。

能力评估阶段

用同一搜索任务下的期望完成时间衡量能力，时间越小能力越强。

C ( τ i ) = ϵ ∑ j = 1 b T j i + ( 1 − ϵ ) A v i (8) C(\tau_i)=\epsilon\sum_{j=1}^{b}T^i_j+(1-\epsilon)\frac{A}{v_i} \tag{8} C(τi)=ϵj=1∑bTji+(1−ϵ)viA(8)

其中， ϵ ∈ ( 0 , 1 ) \epsilon\in(0,1) ϵ∈(0,1)， A A A 为搜索任务长度。计算后按能力排序，能力强者优先承担更难任务。

任务分配阶段

所有待覆盖区域视为图 G = { E , V } G=\{E,V\} G={E,V} 的顶点，边权表示区域间相似性。采用高斯核定义相似矩阵：

W ( V j , V k ) = exp ⁡ ( − ∥ V j − V k ∥ 2 2 σ 2 ) (9) W(V_j,V_k)=\exp\left(-\frac{\|V_j-V_k\|^2}{2\sigma^2}\right) \tag{9} W(Vj,Vk)=exp(−2σ2∥Vj−Vk∥2)(9)

其中， σ \sigma σ 控制邻域宽度。

任务难度由簇内区域到初始点的平均距离与总面积共同决定：

χ i = 1 N i ∑ j = 1 N i H ( V j , V o ) A i (11) \chi_i=\frac{1}{N_i}\sum_{j=1}^{N_i}H(V_j,V_o)A_i \tag{11} χi=Ni1j=1∑NiH(Vj,Vo)Ai(11)

其中， A i A_i Ai、 N i N_i Ni 分别为第 i i i 个簇的总面积和区域数， V o V_o Vo 为 UAV 初始点。按 UAV 能力列表依次分配簇，原多 UAV 问题被分解为多个单 UAV 路径规划问题。

优化求解阶段

任务分配后，每架 UAV 得到一组待访问区域。CBHHA 将单架 UAV 的路径构造建模为 MDP，并把 ACO 与 RL 结合。

GNN 采用各向异性消息传递和边门控机制，共 12 层。节点和边特征传播为

p j o + 1 = p j o + ζ ⁣ ( B N ⁣ ( R o p j o + A k ∈ N j ( s i g ( q j k o ) ⊙ S o p k o ) ) ) , q j k o + 1 = q j k o + ζ ⁣ ( B N ⁣ ( P o q j k o + Q o p j o + M o p k o ) ) . \begin{aligned} p^{o+1}j&=p^o_j+\zeta\!\left(BN\!\left(R^op^o_j+\mathcal{A}{k\in N_j}\big(sig(q^o_{jk})\odot S^op^o_k\big)\right)\right),\\ q^{o+1}{jk}&=q^o{jk}+\zeta\!\left(BN\!\left(P^oq^o_{jk}+Q^op^o_j+M^op^o_k\right)\right). \end{aligned} pjo+1qjko+1=pjo+ζ(BN(Ropjo+Ak∈Nj(sig(qjko)⊙Sopko))),=qjko+ζ(BN(Poqjko+Qopjo+Mopko)).

其中， R o , S o , P o , Q o , M o R^o,S^o,P^o,Q^o,M^o Ro,So,Po,Qo,Mo 为可学习参数， B N BN BN 为批归一化， A \mathcal{A} A 为均值池化， s i g sig sig 为 Sigmoid， ζ \zeta ζ 为 SiLU。MLP 将边特征映射为归一化启发式度量。

局部搜索先贪婪缩短路径，随后以增加当前解边启发式度量总和为目标作扰动，避免短视陷入局部最优。网络训练同时考虑原始解和局部搜索后解：

min ⁡ L ( μ ) = E s ∼ P η μ ( s ) $ε 1 f ( s ) + ε 2 f ( s ' )$ \min \mathcal{L}(\mu)=\mathbb{E}{s\sim P{\eta_\mu}(s)}\left $\\varepsilon_1 f(s)+\\varepsilon_2 f(s')\\right$ minL(μ)=Es∼Pημ(s) $ε1f(s)+ε2f(s')$

强化学习梯度估计为

∇ L ( μ ) = E s ∼ P η μ ( s ) $( ε 1 ( f ( s ) - f ˉ ( s ) ) + ε 2 ( f ( s ' ) - f ˉ ( s ' ) ) ) \nabla μ log P η μ ( s )$ \nabla\mathcal{L}(\mu)=\mathbb{E}{s\sim P{\eta_\mu}(s)}\left $\\left(\\varepsilon_1(f(s)-\\bar f(s))+\\varepsilon_2(f(s')-\\bar f(s'))\\right)\\nabla_\\mu\\log P_{\\eta_\\mu}(s)\\right$ ∇L(μ)=Es∼Pημ(s) $(ε1(f(s)-fˉ(s))+ε2(f(s')-fˉ(s')))\nablaμlogPημ(s)$

4.实验结果

实验先随机生成待覆盖区域，再与 ACBA、SO、APPA 对比，评价任务完成时间、算法执行时间和解偏差。

实验表明，CBHHA 兼具传统进化算法与学习方法优点，相比 SO、APPA、ACBA，目标函数分别优化 2.96%、5.21%、3.28%，且执行时间保持在 1 s 左右或更低。

5.参考文献

Zhao B, Huo M, Li Z, et al. Clustering-based hyper-heuristic algorithm for multi-region coverage path planning of heterogeneous UAVs $J$ . Neurocomputing, 2024, 610: 128528.