2023年IEEE TMC,基于进化多目标强化学习的无人机辅助移动边缘计算轨迹控制与任务卸载,深度解析+性能实测

目录


1.摘要

针对基站盲区下无人机辅助移动边缘计算系统,本文研究了无人机本地计算与无线中继转发在线轨迹控制与任务卸载问题(TCTO)。为解决任务时延、无人机能耗及任务收集量之间因相互冲突多目标优化问题,克服传统强化学习算法在单次运行中无法针对不同目标偏好输出多策略的局限性,本文引入并改进了进化多目标强化学习(EMORL)算法,通过在子代种群中保留所有新学习任务以维持高潜力解的进化。

2.系统模型与问题描述

本文构建了一个由单无人机、单基站及多个随机分布且任务动态到达的智能设备组成旋翼无人机辅助移动边缘计算(MEC)离散时间系统。在该系统中,资源受限的无人机在 T T T个时隙内沿规划轨迹收集覆盖区内的计算任务。

智能设备(SD) k k k动态生成任务,服从参数为 z k z_k zk的伯努利分布,任务建模为 ⟨ a , b ⟩ \langle a, b\rangle ⟨a,b⟩,任务队列长度 L t k L_t^k Ltk更新:
L t + 1 = min ⁡ { L t + l t , L max ⁡ } L_{t+1} = \min\{L_t + l_t, L_{\max}\} Lt+1=min{Lt+lt,Lmax}

无人机在时隙 t t t 卸载 N t O = ⌊ β t N t u ⌋ N_{t}^{O} = \left\lfloor \beta_{t} N_{t}^{u} \right\rfloor NtO=⌊βtNtu⌋ 个任务至基站,剩余 N t L = N t u − N t O N_{t}^{L} = N_{t}^{u} - N_{t}^{O} NtL=Ntu−NtO 个任务本地执行,其本地计算延迟 D t L D_{t}^{L} DtL 与能耗 E t L E_{t}^{L} EtL 分别为:
D L t = min ⁡ { f , N t L } b f v + τ N t q D L_{t} = \frac{\min \{ f, N_{t}^{L} \} b}{f v} + \tau N_{t}^{q} DLt=fvmin{f,NtL}b+τNtq
E L t = κ min ⁡ { f , N t L } b ( f v ) 2 E L_{t} = \kappa \min \{ f, N_{t}^{L} \} b (f v)^{2} ELt=κmin{f,NtL}b(fv)2

无人机覆盖半径 R max ⁡ = H tan ⁡ ( θ max ⁡ ) R_{\max} = H \tan(\theta_{\max}) Rmax=Htan(θmax),时隙 t t t 内收集的任务总数 N t c = ∑ k ∈ K t c R t k N_{t}^{c} = \sum_{k \in \mathcal{K}{t}^{c}} R{t}^{k} Ntc=∑k∈KtcRtk。未完成任务队列 N t + 1 u N_{t+1}^{u} Nt+1u,更新为:
N u t + 1 = min ⁡ { N t q + N t c , N max ⁡ } N u_{t+1} = \min \{ N_{t}^{q} + N_{t}^{c}, N_{\max} \} Nut+1=min{Ntq+Ntc,Nmax}

依据香农公式计算无线链路速率 γ t = W log ⁡ 2 ( 1 + Γ t ) \gamma_{t} = W \log_{2}(1 + \Gamma_{t}) γt=Wlog2(1+Γt),任务卸载至基站的传输时延 D t O D_{t}^{O} DtO 取决于在基站覆盖内的停留时间 ϕ t \phi_{t} ϕt,对应能耗为:
E O t = P U ⋅ D O t E O_{t} = P_{U} \cdot D O_{t} EOt=PU⋅DOt

综合时隙内总时延 D t = D t L + D t O D_t=D_t^L+D_t^O Dt=DtL+DtO 与总能耗 E t = E t L + E t O E_t=E_t^L+E_t^O Et=EtL+EtO,系统在 T T T时隙内的总任务时延 D t o t a l D_\mathrm{total} Dtotal、总能耗 E t o t a l E_\mathrm{total} Etotal及总收集任务数 N t o t a l N_\mathrm{total} Ntotal分别表示为:

D t o t a l = ∑ t = 1 T D t , E t o t a l = ∑ t = 1 T E t + E f l y , N t o t a l = ∑ t = 1 T N t c D_{\mathrm{total}}=\sum_{t=1}^TD_t,\quad E_{\mathrm{total}}=\sum_{t=1}^TE_t+E_{\mathrm{fly}},\quad N_{\mathrm{total}}=\sum_{t=1}^TN_t^c Dtotal=t=1∑TDt,Etotal=t=1∑TEt+Efly,Ntotal=t=1∑TNtc

通过联合优化无人机飞行轨迹( θ t , d t ) \theta_t,d_t) θt,dt)与任务卸载决策( β t ) \beta_t) βt):

max ⁡ θ t , d t , β t ( − D t o t a l , − E t o t a l , N t o t a l ) \max_{\theta_t,d_t,\beta_t}(-D_{\mathrm{total}},-E_{\mathrm{total}},N_{\mathrm{total}}) θt,dt,βtmax(−Dtotal,−Etotal,Ntotal)

3.EMORL-TCTO 用于轨迹控制与任务卸载

学习任务定义为四元组 G = ⟨ w , π θ , π θ a d , V π g ⟩ G=\langle w,\pi_\theta,\pi_{\theta_\mathrm{ad}},V_{\pi_g}\rangle G=⟨w,πθ,πθad,Vπg⟩,采用广义优势估计(GAE)计算向量优势函数 A t A_t At,并通过权重向量 w w w线性加权得到扩展优势函数 A t w = w A t A_t^w=wA_t Atw=wAt。目标策略网络通过裁剪代理目标函数进行更新:

J C G ( θ , w ) = E [ ∑ t = 1 T min ⁡ ( π θ ( a t ∣ s t ) π θ d d ( a t ∣ s t ) A t w , c l i p ( π θ ( a t ∣ s t ) π θ d d ( a t ∣ s t ) , 1 − ϵ , 1 + ϵ ) A t w JC_G(\theta,w)=\mathbb{E}\left[\sum_{t=1}^T\min\left(\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\mathrm{dd}}}(a_t|s_t)}A_t^w\right.,\mathrm{clip}\left(\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\mathrm{dd}}}(a_t|s_t)},1-\epsilon,1+\epsilon\right)A_t^w\right. JCG(θ,w)=E[t=1∑Tmin(πθdd(at∣st)πθ(at∣st)Atw,clip(πθdd(at∣st)πθ(at∣st),1−ϵ,1+ϵ)Atw

价值网络损失函数定义为:

J V G ( θ ) = E [ ∑ t = 1 T ∥ V π θ ( s t ) − V ^ π θ ( s t ) ∥ 2 ] JV_G(\theta)=\mathbb{E}\left[\sum_{t=1}^T\|V_{\pi_\theta}(s_t)-\hat{V}{\pi\theta}(s_t)\|^2\right] JVG(θ)=E[t=1∑T∥Vπθ(st)−V^πθ(st)∥2]

算法在单元单纯形上均匀采样生成 n n n个分布均匀的权重向量,随机初始化 n n n个目标策略网络、采样策略网络及多目标价值网络以构建初始任务集 ν \nu ν。通过改进MMPPO算法产生子代种群 P 0 \mathcal{P}_{0} P0,不同于原始 MMPPO 仅保留最终任务,改进算法在每次迭代后均将新任务存入 P 0 \mathcal{P}0 P0,从而在单次运行中保留全部 n × n w a r m n\times n\mathrm{warm} n×nwarm 个潜在高质解,有效维持了种群多样性。

演化机制通过交互循环实现策略集的Pareto前沿逼近:种群更新TPU,存档更新EP,任务优选MMPPO。

4.结果展示

5.参考文献

Song F, Xing H, Wang X, et al. Evolutionary multi-objective reinforcement learning based trajectory control and task offloading in UAV-assisted mobile edge computing[J]. IEEE Transactions on Mobile Computing, 2022, 22(12): 7387-7405.

6.代码获取

xx

7.算法辅导·应用定制·读者交流

xx

相关推荐
Deepoch7 小时前
野外作业新突破:Deepoc技术让无人机机群实现“去中心化”自主协同
无人机·开发板·具身模型·deepoc
派勤电子11 小时前
测绘差 1 米白跑一天、电力巡检漏缺陷、植保打药打不准?高性能工控机才是高精度无人机的核心底气
无人机·高性能工控机·无人机工控机·无人机工控主板·巡检无人机漏缺陷·植保无人机打药打不准·高精度无人机主板
XMAIPC_Robot13 小时前
深度无人机自动驾驶仪,中小型无人机硬件在环仿真飞行
运维·arm开发·人工智能·fpga开发·无人机·边缘计算
Evand J1 天前
【MATLAB集群控制导航7】多无人机三维编队轨迹规划仿真。RRT*+Catmull-Rom路径平滑+Frenet 编队保持。附MATLAB代码链接
开发语言·matlab·无人机
数智工坊2 天前
【DACS论文阅读】跨域混合采样如何让语义分割模型从合成数据无缝迁移到真实世界
论文阅读·人工智能·算法·机器人·无人机
Evand J2 天前
【课题推荐】三模型IMM交互式多模型滤波算法,匀速/左转/右转目标跟踪,附MATLAB代码测试结果
算法·matlab·目标跟踪·无人机·imm·多模型
小许同学记录成长2 天前
轻量正射实现原理技术文档
算法·无人机
AI浩3 天前
UAV-DETR:面向反无人机目标检测的 DETR 框架
人工智能·目标检测·无人机
AI浩3 天前
MMAUD:面向现代微型无人机威胁的全面多模态反无人机数据集
无人机