基于注意力机制的无人机轨迹优化方法：面向无线能量传输的物联网系统

**题目：**Attention-based UAV Trajectory Optimization for Wireless Power Transfer-assisted IoT Systems

作者：董莉，江沸菠，彭于波

来源：L Dong, F Jiang, Y Peng. IEEE Transactions on Industrial Electronics, 2025, doi: 10.1109/TIE.2024.3525117.

论文地址 ：https://ieeexplore.ieee.org/abstract/document/10879146（查看全文请点击原文链接）

摘要：在无线能量传输（WPT）辅助的物联网（IoT）系统中，无人机（UAV）面临资源受限和轨迹规划次优等挑战。基于强化学习（RL）的轨迹规划方案在大规模系统优化时存在搜索效率低和学习不稳定的问题。为解决这些问题，提出基于Graph Transformer 的注意力 UAV 轨迹优化（AUTO）框架，包括注意力轨迹优化模型（ATOM）和基于 Actor-Critic 的轨迹学习方法（TENMA）。在 ATOM 模型中，图编码器计算物联网设备（IoTD）的自注意力特征，轨迹解码器优化UAV 的数量与轨迹。TENMA 采用改进的 Actor-Critic 方法训练 ATOM，引入系统真实奖励作为基线，以降低评论家网络的方差。该方法适用于高质量且大规模的多 UAV 轨迹规划。实验结果表明，AUTO 框架在多种实验场景中表现出良好的可行性与高效性。

[1. 引言](#1. 引言)

[2. 系统模型与问题表述](#2. 系统模型与问题表述)

[2.1 轨迹模型](#2.1 轨迹模型)

[2.2 数据采集模型](#2.2 数据采集模型)

[2.3 能量消耗模型](#2.3 能量消耗模型)

[2.4 问题表述](#2.4 问题表述)

[2.5 问题分解](#2.5 问题分解)

3.基于注意力的无人机轨迹优化框架问题

[3.1 通信数据集构建AUTO框架概述](#3.1 通信数据集构建AUTO框架概述)

[3.2 图编码器](#3.2 图编码器)

[3.3 轨迹解码器](#3.3 轨迹解码器)

[3.4 基于Actor-Critic的轨迹学习](#3.4 基于Actor-Critic的轨迹学习)

[4. 结果与讨论](#4. 结果与讨论)

[4.1 参数设置](#4.1 参数设置)

[4.2 注意力机制与图池化方法的对比分析](#4.2 注意力机制与图池化方法的对比分析)

[4.3 轨迹设计方法的对比分析](#4.3 轨迹设计方法的对比分析)

[5. 结论](#5. 结论)

1. 引言

随着5G 技术的发展，物联网（IoT）已广泛应用于环境监测、医疗健康、工业 4.0等多个领域。然而，由于发射功率受限和电池容量有限，物联网设备（IoTDs）在远距离通信中的性能较差。此外，当 IoTD 部署在无线覆盖受限且电池电量不足的偏远地区时，IoTD 的充电及其传感数据传输至远程数据中心均面临较大挑战。

幸运的是，无人机（UAV）与无线能量传输（WPT）技术可集成至IoT系统，使 UAV 能够对IoTD进行无线供能。在收集 IoTD 的传感数据之前，UAV 需首先对 IoTD 进行充电，以确保 IoTD 具备足够能量向 UAV 传输其传感数据。因此，UAV 在 IoT 系统中既充当移动充电器，为 IoTD 提供无线能量传输，又作为数据采集节点执行传感数据收集。

与地面数据采集系统相比，UAV 能够高效覆盖大范围区域，并可贴近 IoTD 进行数据采集与能量传输，从而降低数据传输时延，减轻通信负载，提升 WPT 效率。因此，在WPT 辅助的 IoT 系统中，移动管理对 UAV 至关重要。不合理的 UAV 轨迹规划不仅会造成能源浪费，还可能引发服务时延。尤其在UAV 群智协同场景下，轨迹规划的高效移动管理尤为关键。

已有多种UAV 轨迹优化算法被提出。Messaoudi 等人提出了一种基于 UAV 和无人地面载具（UGV）的协同数据采集系统，并采用多智能体强化学习优化 UGV 和 UAV 的轨迹控制。Lu 等人提出了一种 WPT 系统，UAV 先对受能量约束的 IoT 设备进行无线充电，随后使其通过机会传输将数据发送至 UAV。Oubbati 等人提出了一种多智能体深度强化学习方法 TEAM，以优化 UAV 轨迹调度与资源分配，并最小化 UAV 能耗。Zhu 等人基于Transformer 和加权 A* 算法（Weighted A*），提出了一种 UAV 轨迹优化方法 TWA，适用于UAV 辅助的 IoT 网络。此外，Zhu 等人提出了一种注意力强化学习方案，以优化大规模低功耗数据采集任务中的 UAV 轨迹规划。

尽管 UAV 具备高机动性，但其电池续航和数据存储容量仍然限制了 IoTD 数据采集任务的执行。因此，在WPT 辅助的 IoT 系统中，实现 UAV 集群的联合资源管理与移动管理至关重要。为此，本文提出了一种基于注意力机制的 UAV 轨迹优化（AUTO）框架，其中采用注意力轨迹优化模型（ATOM）优化 UAV 数量及轨迹，并使用基于 Actor-Critic 的轨迹学习方法（TENMA）对 ATOM 进行训练。

表 1：与以往工作的比较

在表1中，对比了AUTO 框架与现有研究，主要关注UAV、WPT、注意力机制和强化学习（RL）。结果表明，大多数现有研究仅从两个或三个角度考虑系统。然而，这些研究未深入探讨注意力机制与 RL 在 UAV 与 WPT 辅助 IoT 系统中的融合潜力。因此，与现有研究不同，本文的主要贡献如下：

**1)高精度图编码：**在 ATOM 中，IoT 系统被数学建模为图结构，并提出图编码器以精准提取 IoTD 的自注意力特征。该编码器引入可学习图嵌入层和图池化层，以增强自注意力特征并指导轨迹规划。

**2)高质量轨迹解码：**ATOM 中的轨迹解码器用于生成 UAV 轨迹。该方法通过对齐向量和上下文向量解码IoTD 的自注意力特征及整个图结构，并结合自注意力特征、剩余电池电量及存储容量优化UAV 数量和轨迹。

**3)高效稳定的Actor-Critic学习：**ATOM 采用 TENMA 进行训练，其中评论家网络用于评估生成的轨迹，ATOM 作为行动者网络生成 UAV 轨迹。此外，引入系统真实奖励作为基线，以降低评论家网络的方差，提升 TENMA 的稳定性与泛化能力。

2. 系统模型与问题表述

以下为本文的主要内容，具体公式请参考原文。

如图1所示，WPT辅助的物联网系统由N个物联网设备、一个数据中心和m个具有半双工接入点的UAVs组成，系统通过时分双工（TDD）模式实现对物联网设备的功率传输和数据采集。N个物联网设备记作N = {1, 2, ..., n}。假设第i个物联网设备的位置(xi, yi)是固定且已知的，并且第i个物联网设备有Di个数据需要采集。m个无人机记作M = {1, 2, ..., m}，每个无人机具有有限的数据存储容量Cmax和能量容量Emax。无人机的飞行高度设置为HF。每个无人机在任意时刻只能从一个物联网设备采集数据，因此，在第t时刻的关联aij可以表示为：aij [t] = {0, 1} , ∀i ∈ N , ∀j ∈ M ，其中，aij [t] = 1表示第j个无人机在第t时刻正在从第i个物联网设备采集数据，aij [t] = 0则表示未进行数据采集。

图1：WPT辅助的物联网系统

2.1 轨迹模型

在所提出的系统中，每个无人机从一个物联网设备飞行到另一个物联网设备，沿直线飞行。第j个无人机从位于固定位置rj [0] = (0, 0, H)的数据中心起飞，依次飞往各个物联网设备，并在每个物联网设备上空悬停以采集数据。第j个无人机根据预定的飞行轨迹完成数据采集任务，并在完成一次飞行周期后返回数据中心。因此，有rj [sj ] = rj [0]，对于所有j属于M。因此，第j个无人机有sj个盘旋点。假设每个无人机只服务第i个物联网设备一次，则有所有的无人机从t=1到sj，每个i属于N，进行一次数据采集。

由于每个无人机可以沿直线从一个盘旋点飞到另一个盘旋点，因此第j个无人机的飞行时间可以表示为：第j个无人机的飞行时间等于从第1个盘旋点到第sj个盘旋点的总飞行时间，飞行时间是每两个连续盘旋点之间的距离除以无人机的飞行速度的总和。其中，飞行距离是连续两个盘旋点之间的欧几里得距离，飞行速度v是常数值。

2.2 数据采集模型

我们假设IoTDs可以通过无人机进行无线充电，然后再将数据传输给无人机。整个过程可以分为WPT阶段和数据传输阶段。

在WPT阶段，无人机通过射频（RF）技术以固定的传输功率P_T进行能量传输。第i个物联网设备从第j个无人机接收的功率记作Pij_R，计算公式为Pij_R = |gij_D|² * P_T，其中|gij_D|²表示从第j个无人机到第i个物联网设备的下行功率增益。假设η_L是线性能量采集模型中的常数衰减参数，则第i个物联网设备从第j个无人机接收到的能量Eij_R可以表示为Eij_R = η_L * Pij_R * Tij_E，其中Tij_E表示第i个物联网设备从第j个无人机能量采集的时间。

2.3 能量消耗模型

假设第j个无人机的飞行能量消耗为Ej_F = P_F * Tj_F，其中P_F为无人机的飞行功率。我们还假设当第j个无人机在物联网设备上空盘旋时，其功耗为P_H，那么能量消耗为Ej_T = (P_T + P_H) * Tj_T，其中Tj_T表示第j个无人机的能量传输时间。接下来，当第j个无人机悬停时，数据采集和无人机盘旋的能量消耗可以表示为Ej_C = (P_C + P_H) * Tj_C，其中Tj_C是第j个无人机的数据采集时间，P_C是无人机的数据采集功率。因此，第j个无人机的总能量消耗可以表示为Ej = Ej_F + Ej_C + Ej_T，对于所有j属于M。

由于无人机的有限数据存储容量和能量容量，需要满足以下要求：无人机的总能量消耗不能超过其能量容量Emax，且所有采集的数据不能超过存储容量Cmax。

2.4 问题表述

我们的目标是通过联合优化无人机的数量和轨迹、用户关联、能量采集时间和数据采集时间，来最小化所有无人机的能量消耗。

2.5 问题分解

由于每个物联网设备的能量采集时间和数据采集时间与无人机的轨迹无关，因此原问题P0可以分解为两个子问题：时间分配问题P1和轨迹优化问题P2。P1可以通过凸优化来求解。

3.基于注意力的无人机轨迹优化框架问题

问题P2可以表述为一个著名的组合优化问题------有容量限制的车辆路径问题（CVRP），这是一个NP-hard问题，难以求解。自注意力机制可以将整个系统信息（例如物联网设备的数量、位置和数据大小）编码到自注意力特征矩阵中，并基于这些信息做出全局决策。因此，我们提出了基于Graph Transformer 的AUTO框架来解决问题P2。

3.1 通信数据集构建AUTO框架概述

在AUTO框架中，我们提出了一种新颖的ATOM模型，通过定制的图自注意力模型优化无人机的数量、轨迹和关联。此外，我们提出了一种新的TENMA方法来训练ATOM模型。

AUTO框架的工作流程如算法1所示。我们首先随机初始化ATOM模型的参数θπ。在训练阶段，我们利用TENMA方法来训练ATOM模型。在推理阶段，通过图编码器获得所有物联网设备的自注意力特征h_L1, ..., h_LN和图特征hsa。接着，通过轨迹解码器得到包含总轨迹π和无人机数量m的解。该解还满足存储和电池容量的约束。最后，我们将总轨迹π分割为所有无人机的轨迹π(1), ..., π(m)。在第j个无人机的轨迹中，访问顺序表示为π(j) = [πj,1, ..., πj,sj]，其中πj,t是第t个时间步骤由第j个无人机采集数据的物联网设备的索引。因此，所有关联aij[t]和访问顺序rj[t]都在算法1的推理阶段中得到解决。

3.2 图编码器

所提出的物联网系统可以数学表达为一个图结构对：G = (X, E)，其中X是物联网设备节点的集合，E是边的集合。对于每个物联网设备，其通信范围内的邻居节点都会与其相连。我们提出了一种新颖的图编码器，用于从物联网设备和整个图中提取不同的自注意力特征，这些特征可以帮助解码器生成能量消耗最小的无人机轨迹。图编码器包含一个图嵌入层、L个自注意力层和一个图池化层。每个自注意力层包含一个多头自注意力（MSA）子层和一个全连接（FC）子层。此外，在每个MSA子层和全连接子层之后引入了残差连接，并且在每个MSA子层和全连接子层之前引入了归一化操作。所提出的图编码器如图2所示。图编码器的详细过程可以描述如下：

**1)图嵌入计算：**我们定义物联网设备的信息包含第i个物联网设备的坐标{xi_c, yi_c}和由该物联网设备生成的传感数据Di，表示为Xi = [xi_c, yi_c, Di]，所有物联网设备的信息表示为X = {Xi, ∀i ∈ N}。图嵌入层用于预处理第i个物联网设备的图信息h0,i。

**2)自注意力计算：**我们引入自注意力层来计算所有物联网设备的自注意力特征。首先，图编码器将第i个物联网设备的嵌入信息h0,i映射为查询Qi、键Ki和值Vi，这些映射是通过可学习的矩阵完成的。注意力得分通过查询Qi和键Kj的点积计算，接着用键向量的维度的平方根进行归一化，再通过softmax函数得到注意力权重。这些权重用于计算值Vj的加权和，生成第i个物联网设备在每个头上的自注意力特征Zi。所有注意力头的输出被串联起来，并经过线性变换形成第l个自注意力层中第i个物联网设备的MSA特征h_lM,i。多头机制允许自注意力层共同关注来自不同表示子空间的信息，这些子空间分布在不同的物联网设备上。第l个自注意力层中第i个物联网设备的输出为：h_li = FC(h_lM,i) + h_lM,i其中，FC(·)表示全连接层的前馈操作。

**3)图池化计算：**在计算完所有物联网设备的自注意力特征后，我们需要将所有注意力特征合并为一个全局注意力特征。然而，简单的特征平均可能会导致物联网设备信息的不可恢复的丢失。因此，我们提出了一种图池化层，用于将所有物联网设备的注意力特征h_L1, ..., h_LN合并为一个图特征hsa。

图 2：图编码器的结构

3.3 轨迹解码器

在问题P2中，目标是通过联合优化无人机的数量和轨迹来最小化系统的能量消耗。无人机从数据中心起飞，逐一收集物联网设备的数据，然后返回数据中心。接着，下一架无人机重复这一过程，直到生成所有的轨迹。轨迹解码器中的轨迹规划过程如图3所示。轨迹解码器的详细过程如下所述：

**1)图状态定义：**我们为轨迹解码器开发了图状态，考虑了无人机电池和存储容量的约束条件，在每一步的轨迹规划中进行优化。因此，轨迹可以在所有约束下进行优化。在第t个时间步，图状态表示为hs(t) = [hsa, h_Lπt−1, Ct, Et]。其中，hsa是从图编码器获得的图特征，h_Lπt−1是当前无人机轨迹中最后选定的物联网设备的自注意力特征，πt−1是最后选定物联网设备的索引。Ct和Et分别表示当前无人机在第t个时间步的剩余数据容量和电池容量。

**2)轨迹生成：**在每个时间步，我们使用图状态hs(t)和第L个自注意力层的自注意力特征来计算对齐向量，公式如下：ai(t) = exp(hs(t)ᵀ Wih_Li) / ∑[exp(hs(t)ᵀ Wjh_Lj)]。其中，Wi和Wj是可学习的矩阵。然后，我们可以计算上下文向量，公式为：c(t) = ∑[ai(t) h_Li]。接下来，剩余物联网设备的概率分布P(t) = {pi(t), j ∈ N}可以通过以下公式计算：P(t) = softmax(Wp tanh(Wc · Concat(c(t), hs(t)))) · M。其中，Wp和Wc是可学习的矩阵，M是掩码矩阵。M(i) = 1表示无人机可以收集第i个物联网设备的数据，M(i) = 0则表示不能。pi(t)表示当前无人机在第t个时间步选择第i个物联网设备作为下一个要收集数据的物联网设备的概率。在每个时间步，当前无人机选择P(t)中概率最大的物联网设备作为下一个要收集数据的物联网设备πt，因此有：πt = argmax(P(t))。其中，argmax(·)返回概率最大的物联网设备的索引。

**3)轨迹分割：**当所有物联网设备都被选择后，我们可以得到完整的轨迹π = [π1, ..., πT]。π是所有物联网设备和数据中心的排列。πt ∈ {1, ..., N}表示物联网设备的索引，而πt = 0表示数据中心。例如，在图3中，我们可以得到完整的轨迹π = [0, 4, 3, 0, 2, 1, 0]。然后，轨迹解码器生成的完整轨迹可以被分割为所有无人机的多个轨迹。例如，轨迹π = [0, 4, 3, 0, 2, 1, 0]可以分割为π(1) = [0, 4, 3, 0]和π(2) = [0, 2, 1, 0]。因此，无人机的数量设置为m = 2。最后，所有无人机可以根据规划的轨迹π(1), ..., π(m)并行飞行并收集数据。

图3：轨迹解码器生成的轨迹

3.4 基于Actor-Critic的轨迹学习

本节介绍ATOM模型的训练方法。在强化学习中，基于值的方法（如Q-learning和深度Q网络DQN）在大规模动作空间下效率较低。此外，传统的基于策略的方法（如原始策略梯度和蒙特卡洛策略梯度）难以收敛。因此，我们提出了一种新颖的TENMA方法来训练ATOM模型。在TENMA方法中，额外引入了一个评论者（Critic）网络对ATOM模型进行评估，并利用系统的真实奖励作为基准，以减少评论者网络的方差，从而增强TENMA的稳定性和泛化能力。TENMA方法的详细过程如下：

**1)****状态、动作和奖励定义：**在WPT辅助的物联网系统中，我们定义系统的状态包括四部分信息：

全局图特征，由图编码器提取的全局语义信息；

上一个选中的物联网设备的自注意力特征，表示无人机最近一次访问的设备的状态；

当前无人机的剩余数据容量，反映了无人机还能存储多少数据；

当前无人机的剩余电量，用于约束无人机的飞行能力。

无人机的动作定义为完整的飞行轨迹，即它在任务期间依次访问的设备序列。在训练过程中，我们从状态空间中采样多个实例，并利用蒙特卡洛方法在当前策略下生成可行的轨迹序列。对于每个实例的奖励，我们设定为所有无人机飞行总距离的负值，即：奖励值等于所有无人机飞行路径上的每个连续航点之间的欧几里得距离的总和，但取负值，以便最小化能耗。通过计算各个无人机的飞行距离之和，我们能够引导模型学习到更节能的轨迹规划方案。

**2) Actor****网络设计：**我们设计了一个带参数的Actor网络（即策略网络），用于生成无人机轨迹。该网络根据当前状态生成轨迹的概率分布，并在每个时间步选择下一个设备。轨迹的选择是逐步进行的，在每一步，网络根据当前状态和过去的选择，计算所有可能目标设备的选择概率，并选取最优目标。该过程通过一种基于概率的策略来定义，即给定当前状态，Actor网络输出一个概率分布，表示选择不同轨迹的可能性。通过不断采样和优化，模型逐步学习到更优的轨迹规划方案。

为了优化Actor网络，我们定义其损失函数：损失函数的计算方式是：在多个采样实例上取平均值，并对每个实例，将其最终获得的奖励值与网络给出的选择概率相关联。目标是最大化高奖励轨迹的概率，同时降低低奖励轨迹的概率。

在优化过程中，我们采用了一种带有基准值的策略梯度方法来提升训练稳定性：在计算更新方向时，我们不仅考虑当前的真实奖励，还引入了Critic网络的预测值，作为基准来减少训练过程中的方差。只有当实际奖励高于预测奖励时，才会增强该策略的权重，反之则会削弱，以实现稳定收敛。

**3) Critic****网络设计：**为了提升学习的稳定性，我们引入了Critic网络（评论者网络），用于预测无人机轨迹的奖励值。Critic网络的作用是为Actor网络提供一个参考值，帮助它评估当前策略的优劣。

在每个训练步骤，Critic网络会根据当前状态和轨迹，预测它们的奖励值，并与真实奖励值进行比较。Critic网络的优化目标是最小化预测值与实际奖励值之间的误差，从而提供更准确的基准。Critic网络的优化过程如下：

在多个实例上计算预测奖励与真实奖励之间的误差，并取平均值，作为优化目标。通过梯度下降法不断调整Critic网络的参数，使其预测值逐渐接近真实奖励值。这个过程可以有效减少Actor网络在训练时的波动，使其更稳定地学习到最优轨迹策略。

4. 结果与讨论

4.1 参数设置

在本次仿真实验中，我们假设IoTDs分布在1000 m × 1000 m的区域内，并且IoTDs的位置和感知数据在不同场景下存在随机变化。我们设定区域内共500个IoTDs，每个IoTD的数据大小在 0.2,1.50.2, 1.50.2,1.5 MB 之间随机选取。具体的AUTO框架参数设置见表2。此外，AUTO框架的实现采用PyTorch，所有仿真实验均在Python 3.6 环境下运行，硬件配置如下：

处理器（CPU）：Intel Xeon E5

图形处理单元（GPU）：NVIDIA Tesla T4

内存（RAM）：32GB

该实验环境确保了AUTO框架能够高效进行计算，并支持大规模IoTD数据处理和无人机轨迹优化的仿真实验。

表 2：系统模型的参数

4.2 注意力机制与图池化方法的对比分析

本实验旨在评估不同注意力机制结合不同池化算子时的性能表现。我们选取ATOM模型，并与以下两种注意力机制进行对比：Luong注意力机制、区域注意力机制。此外，我们还考虑了三种图池化算子：均值池化、求和池化、最大池化。实验结果在表3中给出了最小能耗、平均能耗和标准差等关键指标。从表III的结果可以看出，ATOM模型在所有场景下均表现出最低的能耗，这是因为以下几个关键因素：

1)多头自注意力机制结合局部和全局注意力**：**Luong-Attn 和 Area-Attn 都属于局部注意力机制，只能关注IoTD的局部特征；多头自注意力则是一种混合机制，同时具备局部注意力和全局注意力，能够捕捉不同尺度上的IoTD特征，从而提高模型的表达能力和性能。

2)图嵌入与池化增强注意力特征**：**均值池化相比于最大池化和求和池化更具优势：最大池化可能导信息丢失，使得某些IoTD的特征无法被充分利用；求和池化可能放大IoTD数量较多时的能量消耗影响，不够敏感；均值池化能够在提取IoTD特征时保留更多的有用信息，同时对IoTD特征更敏感，因而更适用于ATOM模型。

综上所述，ATOM模型结合多头自注意力机制和均值池化，使得图编码器能够更有效地提取IoTDs的局部与全局特征，从而实现更低的能耗表现。

表 3：不同注意力机制与不同池化操作符的比较

4.3 轨迹设计方法的对比分析

本实验旨在比较不同轨迹设计方法在WPT辅助物联网系统中的整体性能，并从两个方面进行评估。

1)能耗与计算时间对比**：**首先，我们对比了ATOM模型与以下三种轨迹设计方法(指针网络、图神经网络、图指针网络)在不同强化学习训练器（如Reinforce、AC、A2C 以及提出的 TENMA的能耗与计算时间。表4给出了平均能耗对比结果，从表中可以看出，AUTO框架（ATOM+TENMA）具有最低的能耗，其主要原因如下：1)ATOM模型结合多头注意力与图运算，具备强大的组合优化能力和泛化能力。2)TENMA训练方法在训练过程中最小化了奖励的方差，从而实现了最高的奖励，进一步降低了系统能耗。

表4：不同轨迹设计师与不同强化训练器的平均能源成本

2)泛化性能评估**：**为了进一步评估AUTO框架的泛化能力，我们在不同UAV电池容量条件下测试所有基于神经网络的轨迹设计方法。无人机电池容量范围设定在1,700 mAh 至 2,550 mAh，并记录其能耗情况。图4 显示了不同方法在该实验设置下的能耗对比结果：GNN 方案的能耗最高，其次是 PN 和 GPN，AUTO 框架（ATOM+TENMA）能耗最低。

综合实验结果表明，AUTO框架在所有基于神经网络的轨迹设计方法中表现最佳，能够实现最低的系统能耗，同时具有良好的泛化能力。

图 4：不同电池容量的无人机能量成本

5. 结论

在本文中，我们提出了一种AUTO 框架，用于优化WPT辅助IoT系统中UAV的能耗。在 AUTO 框架中，我们首先基于Graph Transformer设计了ATOM 模型，用于生成最低能耗的 UAV 轨迹。在 ATOM 模型中：图编码器采用自注意力机制，用于提取 IoTD 的自注意力特征，轨迹解码器基于提取的特征生成满足 UAV 资源约束的最优轨迹。随后，我们采用 TENMA 训练方法对 ATOM 模型进行优化训练。最终，实验结果表明，AUTO 框架的性能优于其他轨迹设计方法，在 UAV 轨迹优化任务中表现卓越。