2023年IEEE TMC，基于进化多目标强化学习的无人机辅助移动边缘计算轨迹控制与任务卸载，深度解析+性能实测

1.摘要

针对基站盲区下无人机辅助移动边缘计算系统，本文研究了无人机本地计算与无线中继转发在线轨迹控制与任务卸载问题（TCTO）。为解决任务时延、无人机能耗及任务收集量之间因相互冲突多目标优化问题，克服传统强化学习算法在单次运行中无法针对不同目标偏好输出多策略的局限性，本文引入并改进了进化多目标强化学习（EMORL）算法，通过在子代种群中保留所有新学习任务以维持高潜力解的进化。

2.系统模型与问题描述

本文构建了一个由单无人机、单基站及多个随机分布且任务动态到达的智能设备组成旋翼无人机辅助移动边缘计算（MEC）离散时间系统。在该系统中，资源受限的无人机在 T T T个时隙内沿规划轨迹收集覆盖区内的计算任务。

智能设备(SD) k k k动态生成任务，服从参数为 z k z_k zk的伯努利分布，任务建模为 ⟨ a , b ⟩ \langle a, b\rangle ⟨a,b⟩，任务队列长度 L t k L_t^k Ltk更新：
L t + 1 = min ⁡ { L t + l t , L max ⁡ } L_{t+1} = \min\{L_t + l_t, L_{\max}\} Lt+1=min{Lt+lt,Lmax}

无人机在时隙 t t t 卸载 N t O = ⌊ β t N t u ⌋ N_{t}^{O} = \left\lfloor \beta_{t} N_{t}^{u} \right\rfloor NtO=⌊βtNtu⌋ 个任务至基站，剩余 N t L = N t u − N t O N_{t}^{L} = N_{t}^{u} - N_{t}^{O} NtL=Ntu−NtO 个任务本地执行，其本地计算延迟 D t L D_{t}^{L} DtL 与能耗 E t L E_{t}^{L} EtL 分别为：
D L t = min ⁡ { f , N t L } b f v + τ N t q D L_{t} = \frac{\min \{ f, N_{t}^{L} \} b}{f v} + \tau N_{t}^{q} DLt=fvmin{f,NtL}b+τNtq
E L t = κ min ⁡ { f , N t L } b ( f v ) 2 E L_{t} = \kappa \min \{ f, N_{t}^{L} \} b (f v)^{2} ELt=κmin{f,NtL}b(fv)2

无人机覆盖半径 R max ⁡ = H tan ⁡ ( θ max ⁡ ) R_{\max} = H \tan(\theta_{\max}) Rmax=Htan(θmax)，时隙 t t t 内收集的任务总数 N t c = ∑ k ∈ K t c R t k N_{t}^{c} = \sum_{k \in \mathcal{K}{t}^{c}} R{t}^{k} Ntc=∑k∈KtcRtk。未完成任务队列 N t + 1 u N_{t+1}^{u} Nt+1u，更新为：
N u t + 1 = min ⁡ { N t q + N t c , N max ⁡ } N u_{t+1} = \min \{ N_{t}^{q} + N_{t}^{c}, N_{\max} \} Nut+1=min{Ntq+Ntc,Nmax}

依据香农公式计算无线链路速率 γ t = W log ⁡ 2 ( 1 + Γ t ) \gamma_{t} = W \log_{2}(1 + \Gamma_{t}) γt=Wlog2(1+Γt)，任务卸载至基站的传输时延 D t O D_{t}^{O} DtO 取决于在基站覆盖内的停留时间 ϕ t \phi_{t} ϕt，对应能耗为：
E O t = P U ⋅ D O t E O_{t} = P_{U} \cdot D O_{t} EOt=PU⋅DOt

综合时隙内总时延 D t = D t L + D t O D_t=D_t^L+D_t^O Dt=DtL+DtO 与总能耗 E t = E t L + E t O E_t=E_t^L+E_t^O Et=EtL+EtO，系统在 T T T时隙内的总任务时延 D t o t a l D_\mathrm{total} Dtotal、总能耗 E t o t a l E_\mathrm{total} Etotal及总收集任务数 N t o t a l N_\mathrm{total} Ntotal分别表示为：

D t o t a l = ∑ t = 1 T D t , E t o t a l = ∑ t = 1 T E t + E f l y , N t o t a l = ∑ t = 1 T N t c D_{\mathrm{total}}=\sum_{t=1}^TD_t,\quad E_{\mathrm{total}}=\sum_{t=1}^TE_t+E_{\mathrm{fly}},\quad N_{\mathrm{total}}=\sum_{t=1}^TN_t^c Dtotal=t=1∑TDt,Etotal=t=1∑TEt+Efly,Ntotal=t=1∑TNtc

通过联合优化无人机飞行轨迹( θ t , d t ) \theta_t,d_t) θt,dt)与任务卸载决策( β t ) \beta_t) βt)：

max ⁡ θ t , d t , β t ( − D t o t a l , − E t o t a l , N t o t a l ) \max_{\theta_t,d_t,\beta_t}(-D_{\mathrm{total}},-E_{\mathrm{total}},N_{\mathrm{total}}) θt,dt,βtmax(−Dtotal,−Etotal,Ntotal)

3.EMORL-TCTO 用于轨迹控制与任务卸载

学习任务定义为四元组 G = ⟨ w , π θ , π θ a d , V π g ⟩ G=\langle w,\pi_\theta,\pi_{\theta_\mathrm{ad}},V_{\pi_g}\rangle G=⟨w,πθ,πθad,Vπg⟩，采用广义优势估计(GAE)计算向量优势函数 A t A_t At,并通过权重向量 w w w线性加权得到扩展优势函数 A t w = w A t A_t^w=wA_t Atw=wAt。目标策略网络通过裁剪代理目标函数进行更新：

J C G ( θ , w ) = E [ ∑ t = 1 T min ⁡ ( π θ ( a t ∣ s t ) π θ d d ( a t ∣ s t ) A t w , c l i p ( π θ ( a t ∣ s t ) π θ d d ( a t ∣ s t ) , 1 − ϵ , 1 + ϵ ) A t w JC_G(\theta,w)=\mathbb{E}\left[\sum_{t=1}^T\min\left(\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\mathrm{dd}}}(a_t|s_t)}A_t^w\right.,\mathrm{clip}\left(\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\mathrm{dd}}}(a_t|s_t)},1-\epsilon,1+\epsilon\right)A_t^w\right. JCG(θ,w)=E[t=1∑Tmin(πθdd(at∣st)πθ(at∣st)Atw,clip(πθdd(at∣st)πθ(at∣st),1−ϵ,1+ϵ)Atw

价值网络损失函数定义为：

J V G ( θ ) = E $∑ t = 1 T ∥ V π θ ( s t ) − V \^ π θ ( s t ) ∥ 2$ JV_G(\theta)=\mathbb{E}\left $\\sum_{t=1}\^T\\\|V_{\\pi_\\theta}(s_t)-\\hat{V}_{\\pi_\\theta}(s_t)\\\|\^2\\right$ JVG(θ)=E $t=1∑T∥Vπθ(st)−V\^πθ(st)∥2$

算法在单元单纯形上均匀采样生成 n n n个分布均匀的权重向量，随机初始化 n n n个目标策略网络、采样策略网络及多目标价值网络以构建初始任务集 ν \nu ν。通过改进MMPPO算法产生子代种群 P 0 \mathcal{P}_{0} P0，不同于原始 MMPPO 仅保留最终任务，改进算法在每次迭代后均将新任务存入 P 0 \mathcal{P}0 P0，从而在单次运行中保留全部 n × n w a r m n\times n\mathrm{warm} n×nwarm 个潜在高质解，有效维持了种群多样性。

演化机制通过交互循环实现策略集的Pareto前沿逼近：种群更新TPU，存档更新EP，任务优选MMPPO。

4.结果展示

5.参考文献

Song F, Xing H, Wang X, et al. Evolutionary multi-objective reinforcement learning based trajectory control and task offloading in UAV-assisted mobile edge computing $J$ . IEEE Transactions on Mobile Computing, 2022, 22(12): 7387-7405.