目录

1.摘要
针对多物流点无人机配送中轨迹规划可建模为TSP问题、避障转向导致能耗显著增加以及复杂环境下飞行安全难以保障的问题,本文提出了一种融合蚁群算法(ACO)与引入势函数的深度Q网络(DQN)的无人机物流轨迹规划策略------ACO-DQN-TP。该方法包含路径规划与轨迹规划两个阶段:路径规划阶段通过引导层蚁群算法(GuLACO)重开禁忌表,避免多目标环境中的死锁问题并获得粗粒度引导路径;轨迹规划阶段采用基于人工势场的DQN(DQNPF),增强无人机与环境的交互能力,实现三维空间下的精细避障。
2.无人机轨迹规划
无人机轨迹规划分为路径规划与轨迹规划两阶段:路径规划在保证与障碍物安全距离的前提下寻找最短飞行路径;轨迹规划基于路径并结合时间信息优化速度与加速度,以实现平滑飞行并降低飞行时间和能耗。
无人机轨迹规划分为路径规划与轨迹规划两阶段,均采用基于几何形式的表示方法。路径规划以三维折线形式确定起点、目标点和终点的访问顺序,实现任务分解;轨迹规划在相邻路径点间生成包含时间信息的空间轨迹,描述无人机实际飞行过程,其规划精度随空间点数量增加而提高。

本文采用网格地图法对无人机飞行环境进行建模,将二维与三维空间离散为等尺寸网格,通过区分自由网格与障碍网格实现安全路径搜索,并利用网格编号建立空间映射关系。在此基础上,构建了无人机轨迹规划的性能约束模型,综合考虑最大航程、俯仰角、飞行高度和偏航角等限制,以降低能耗并保障飞行安全。
3.基于ACO-DQN-TP的三维轨迹规划

本文提出的 ACO-DQN-TP 策略中,路径规划阶段采用改进的引导层蚁群算法(GuLACO)生成全局引导路径,轨迹规划阶段则利用引入势函数的深度Q网络(DQNPF)实现三维空间下的精细避障与飞行控制。针对多目标三维轨迹规划中易出现的搜索死锁问题,本文通过重开蚁群禁忌表的方式增强算法鲁棒性,使蚂蚁在陷入死锁时重新获得可选路径点,从而避免搜索中断并提升路径生成质量。
GuLACO算法
GuLACO 算法用于多目标问题的粗粒度路径搜索,生成一条遍历所有目标点并返回起点的引导路径。与传统蚁群算法不同,GuLACO 对关键参数进行了改进,尤其是在期望启发因子设计上,综合考虑了目标点权重以及起点、当前点与目标点之间的距离,使蚂蚁在网格环境中获得更有效的搜索引导:
η i j g u i d e ( t ) = 1 d 0 i + d i j + 1 d i j + W j W a l l , ∀ i ∈ N u m , ∀ j ∈ J ( i ) \eta_{ij}^{guide}(t)=\frac{1}{d_{0i}+d_{ij}}+\frac{1}{d_{ij}}+\frac{W_{j}}{W_{all}},\forall i\in Num,\forall j\in J(i) ηijguide(t)=d0i+dij1+dij1+WallWj,∀i∈Num,∀j∈J(i)
其中, η ( g u i d e ) \eta^{(\mathrm{guide})} η(guide)ij ( t ) (t) (t)表示时刻 t t t下目标点 P i P_\mathrm{i} Pi与 P j P_\mathrm{j} Pj之间的期望启发程度, W a l l W_\mathrm{all} Wall为所有目标点的总权重,Num 表示规划空间中全部网格编号的集合。
W a l l = ∑ i = 1 N W i W_{all}=\sum_{i=1}^NW_i Wall=i=1∑NWi
信息素挥发因子决定蚁群算法的路径搜索与收敛性能,本文设置信息素挥发因子随迭代过程进行自适应调整:
ρ ( t ) = { 0.95 ρ ( t − 1 ) , 0.95 ρ ( t − 1 ) ≥ ρ min ρ min , 0.95 ρ ( t − 1 ) < ρ min \rho\left(t\right)=\left\{\begin{array}{c}0.95\rho\left(t-1\right),0.95\rho\left(t-1\right)\geq\rho_{\min}\\\rho_{\min},0.95\rho\left(t-1\right)<\rho_{\min}\end{array}\right. ρ(t)={0.95ρ(t−1),0.95ρ(t−1)≥ρminρmin,0.95ρ(t−1)<ρmin
信息素更新公式:
τ i j ( t + 1 ) = ( 1 − ρ ) τ i j ( t ) + ρ Δ τ i j ( t ) , ∀ i , j ∈ N u m \tau_{ij}(t+1)=(1-\rho)\tau_{ij}(t)+\rho\Delta\tau_{ij}(t),\forall i,j\in Num τij(t+1)=(1−ρ)τij(t)+ρΔτij(t),∀i,j∈Num
基于DQNPF的轨迹规划
本文提出将人工势场与深度 Q 网络融合的 DQNPF 方法,通过奖励机制引导无人机避障并趋近目标,同时采用自适应步长的航向控制策略,在提升避障能力的同时减少轨迹冗余并提高规划效率。DQNPF 算法将目标引力势场与障碍斥力势场融入 DQN 奖励机制,通过势函数定量评估动作效果,并结合经验回放训练网络,实现无人机高效避障与目标趋近的轨迹规划。奖励函数:
r a ( t ) = d a t − d a t + 1 ∣ d a t − d a t + 1 ∣ e ∣ d a t − d a t + 1 ∣ , d a t − d a t + 1 ∈ [ − L , L ] r_{a}(t)=\frac{d_{a}^{t}-d_{a}^{t+1}}{|d_{a}^{t}-d_{a}^{t+1}|}e^{|d_{a}^{t}-d_{a}^{t+1}|},d_{a}^{t}-d_{a}^{t+1}\in\begin{bmatrix}-L,L\end{bmatrix} ra(t)=∣dat−dat+1∣dat−dat+1e∣dat−dat+1∣,dat−dat+1∈[−L,L]
本文基于势函数构建了障碍物奖励机制,根据无人机前后时刻对障碍的感知情况动态给予奖励或惩罚,引导其保持安全距离;并将障碍奖励与目标奖励叠加,形成总奖励以指导无人机安全高效飞行。
4.结果展示

5.参考文献
1\] Liu Z, Li L, Zhang X, et al. Considering both energy effectiveness and flight safety in UAV trajectory planning for intelligent logistics\[J\]. Vehicular Communications, 2025, 52: 100885. ### 6.代码获取 xx ### 7.算法辅导·应用定制·读者交流 xx