2023年IEEE TMC,基于进化多目标强化学习的无人机辅助移动边缘计算轨迹控制与任务卸载,深度解析+性能实测

目录


1.摘要

针对基站盲区下无人机辅助移动边缘计算系统,本文研究了无人机本地计算与无线中继转发在线轨迹控制与任务卸载问题(TCTO)。为解决任务时延、无人机能耗及任务收集量之间因相互冲突多目标优化问题,克服传统强化学习算法在单次运行中无法针对不同目标偏好输出多策略的局限性,本文引入并改进了进化多目标强化学习(EMORL)算法,通过在子代种群中保留所有新学习任务以维持高潜力解的进化。

2.系统模型与问题描述

本文构建了一个由单无人机、单基站及多个随机分布且任务动态到达的智能设备组成旋翼无人机辅助移动边缘计算(MEC)离散时间系统。在该系统中,资源受限的无人机在 T T T个时隙内沿规划轨迹收集覆盖区内的计算任务。

智能设备(SD) k k k动态生成任务,服从参数为 z k z_k zk的伯努利分布,任务建模为 ⟨ a , b ⟩ \langle a, b\rangle ⟨a,b⟩,任务队列长度 L t k L_t^k Ltk更新:
L t + 1 = min ⁡ { L t + l t , L max ⁡ } L_{t+1} = \min\{L_t + l_t, L_{\max}\} Lt+1=min{Lt+lt,Lmax}

无人机在时隙 t t t 卸载 N t O = ⌊ β t N t u ⌋ N_{t}^{O} = \left\lfloor \beta_{t} N_{t}^{u} \right\rfloor NtO=⌊βtNtu⌋ 个任务至基站,剩余 N t L = N t u − N t O N_{t}^{L} = N_{t}^{u} - N_{t}^{O} NtL=Ntu−NtO 个任务本地执行,其本地计算延迟 D t L D_{t}^{L} DtL 与能耗 E t L E_{t}^{L} EtL 分别为:
D L t = min ⁡ { f , N t L } b f v + τ N t q D L_{t} = \frac{\min \{ f, N_{t}^{L} \} b}{f v} + \tau N_{t}^{q} DLt=fvmin{f,NtL}b+τNtq
E L t = κ min ⁡ { f , N t L } b ( f v ) 2 E L_{t} = \kappa \min \{ f, N_{t}^{L} \} b (f v)^{2} ELt=κmin{f,NtL}b(fv)2

无人机覆盖半径 R max ⁡ = H tan ⁡ ( θ max ⁡ ) R_{\max} = H \tan(\theta_{\max}) Rmax=Htan(θmax),时隙 t t t 内收集的任务总数 N t c = ∑ k ∈ K t c R t k N_{t}^{c} = \sum_{k \in \mathcal{K}{t}^{c}} R{t}^{k} Ntc=∑k∈KtcRtk。未完成任务队列 N t + 1 u N_{t+1}^{u} Nt+1u,更新为:
N u t + 1 = min ⁡ { N t q + N t c , N max ⁡ } N u_{t+1} = \min \{ N_{t}^{q} + N_{t}^{c}, N_{\max} \} Nut+1=min{Ntq+Ntc,Nmax}

依据香农公式计算无线链路速率 γ t = W log ⁡ 2 ( 1 + Γ t ) \gamma_{t} = W \log_{2}(1 + \Gamma_{t}) γt=Wlog2(1+Γt),任务卸载至基站的传输时延 D t O D_{t}^{O} DtO 取决于在基站覆盖内的停留时间 ϕ t \phi_{t} ϕt,对应能耗为:
E O t = P U ⋅ D O t E O_{t} = P_{U} \cdot D O_{t} EOt=PU⋅DOt

综合时隙内总时延 D t = D t L + D t O D_t=D_t^L+D_t^O Dt=DtL+DtO 与总能耗 E t = E t L + E t O E_t=E_t^L+E_t^O Et=EtL+EtO,系统在 T T T时隙内的总任务时延 D t o t a l D_\mathrm{total} Dtotal、总能耗 E t o t a l E_\mathrm{total} Etotal及总收集任务数 N t o t a l N_\mathrm{total} Ntotal分别表示为:

D t o t a l = ∑ t = 1 T D t , E t o t a l = ∑ t = 1 T E t + E f l y , N t o t a l = ∑ t = 1 T N t c D_{\mathrm{total}}=\sum_{t=1}^TD_t,\quad E_{\mathrm{total}}=\sum_{t=1}^TE_t+E_{\mathrm{fly}},\quad N_{\mathrm{total}}=\sum_{t=1}^TN_t^c Dtotal=t=1∑TDt,Etotal=t=1∑TEt+Efly,Ntotal=t=1∑TNtc

通过联合优化无人机飞行轨迹( θ t , d t ) \theta_t,d_t) θt,dt)与任务卸载决策( β t ) \beta_t) βt):

max ⁡ θ t , d t , β t ( − D t o t a l , − E t o t a l , N t o t a l ) \max_{\theta_t,d_t,\beta_t}(-D_{\mathrm{total}},-E_{\mathrm{total}},N_{\mathrm{total}}) θt,dt,βtmax(−Dtotal,−Etotal,Ntotal)

3.EMORL-TCTO 用于轨迹控制与任务卸载

学习任务定义为四元组 G = ⟨ w , π θ , π θ a d , V π g ⟩ G=\langle w,\pi_\theta,\pi_{\theta_\mathrm{ad}},V_{\pi_g}\rangle G=⟨w,πθ,πθad,Vπg⟩,采用广义优势估计(GAE)计算向量优势函数 A t A_t At,并通过权重向量 w w w线性加权得到扩展优势函数 A t w = w A t A_t^w=wA_t Atw=wAt。目标策略网络通过裁剪代理目标函数进行更新:

J C G ( θ , w ) = E [ ∑ t = 1 T min ⁡ ( π θ ( a t ∣ s t ) π θ d d ( a t ∣ s t ) A t w , c l i p ( π θ ( a t ∣ s t ) π θ d d ( a t ∣ s t ) , 1 − ϵ , 1 + ϵ ) A t w JC_G(\theta,w)=\mathbb{E}\left[\sum_{t=1}^T\min\left(\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\mathrm{dd}}}(a_t|s_t)}A_t^w\right.,\mathrm{clip}\left(\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\mathrm{dd}}}(a_t|s_t)},1-\epsilon,1+\epsilon\right)A_t^w\right. JCG(θ,w)=E[t=1∑Tmin(πθdd(at∣st)πθ(at∣st)Atw,clip(πθdd(at∣st)πθ(at∣st),1−ϵ,1+ϵ)Atw

价值网络损失函数定义为:

J V G ( θ ) = E ∑ t = 1 T ∥ V π θ ( s t ) − V \^ π θ ( s t ) ∥ 2 JV_G(\theta)=\mathbb{E}\left\\sum_{t=1}\^T\\\|V_{\\pi_\\theta}(s_t)-\\hat{V}_{\\pi_\\theta}(s_t)\\\|\^2\\right JVG(θ)=Et=1∑T∥Vπθ(st)−V\^πθ(st)∥2

算法在单元单纯形上均匀采样生成 n n n个分布均匀的权重向量,随机初始化 n n n个目标策略网络、采样策略网络及多目标价值网络以构建初始任务集 ν \nu ν。通过改进MMPPO算法产生子代种群 P 0 \mathcal{P}_{0} P0,不同于原始 MMPPO 仅保留最终任务,改进算法在每次迭代后均将新任务存入 P 0 \mathcal{P}0 P0,从而在单次运行中保留全部 n × n w a r m n\times n\mathrm{warm} n×nwarm 个潜在高质解,有效维持了种群多样性。

演化机制通过交互循环实现策略集的Pareto前沿逼近:种群更新TPU,存档更新EP,任务优选MMPPO。

4.结果展示

5.参考文献

Song F, Xing H, Wang X, et al. Evolutionary multi-objective reinforcement learning based trajectory control and task offloading in UAV-assisted mobile edge computingJ. IEEE Transactions on Mobile Computing, 2022, 22(12): 7387-7405.

6.代码获取

xx

7.算法辅导·应用定制·读者交流

xx

相关推荐
24年生活经验_小旻15 天前
ROS2+Ardupilot+Gazebo通信仿真基本环境搭建
无人机
嘉子的秃头日记16 天前
TRO 2026|无人机能不能像积木一样,拼出不同形态?
无人机
YOLO数据集集合16 天前
无人机航拍地质灾害智能识别 山体滑坡实例分割数据集落地实战 | 泥石流监测 道路险情封堵 深度学习模型训练方案10296期
人工智能·深度学习·yolo·目标检测·无人机
海砥装备HardAus16 天前
大载重工业无人机高空风扰建模与ADRC自抗扰抗风控制实现
无人机·adrc·工业无人机
海砥装备HardAus16 天前
大载重工业无人机动力容错控制:单电机失效下的应急重构算法设计
算法·重构·嵌入式·无人机
中科固源16 天前
飞控里的“暗战”:无人机软件栈中的控制权风险
网络安全·无人机·低空经济
YOLO数据集集合16 天前
无人机风电设备智能巡检 风机叶片缺陷目标检测数据集实战 | 表面腐蚀漏油识别 工业视觉质检 深度学习模型训练落地10337期
人工智能·深度学习·目标检测·计算机视觉·无人机
飞手早知道17 天前
一站式选机服务落地 赋能无人机行业采购提质增效
无人机
LONGZETECH17 天前
无人机仿真教学软件选型实战:5 个硬核技术维度,避开实训建设踩坑
3d·无人机·交互·cocos2d
渡众机器人17 天前
智能体对抗挑战赛和空地协同侦排挑战赛的报名流程
人工智能·自动驾驶·无人机·智能体·报名流程