一种用于无人机任务卸载的轻量级深度强化学习框架

中文论文标题

TinyDeepUAV：一种用于无人机任务卸载的轻量级深度强化学习框架

英文论文标题

TinyDeepUAV: A Tiny Deep Reinforcement Learning Framework for UAV Task Offloading in Edge-Based Consumer Electronics

作者信息

Sujit Bebortta (Graduate Student Member, IEEE)
- 部门：计算机科学系
- 学校：Ravenshaw University
- 地址：Cuttack 753003, India
- 邮箱：[email protected]
Subhranshu Sekhar Tripathy
- 学校：KIIT Deemed to be University
- 地址：Bhubaneswar 751024, India
- 邮箱：[email protected]
Surbhi Bhatia Khan
- 学校：University of Salford, U.K. 和 Lebanese American University, Lebanon
- 邮箱：[email protected]
Maryam M. Al Dabel
- 学校：University of Hafr Al Batin, Saudi Arabia
- 邮箱：[email protected]
Ahlam Almusharraf
- 学校：Princess Nourah bint Abdulrahman University, Saudi Arabia
- 邮箱：[email protected]
Ali Kashif Bashir (Senior Member, IEEE)
- 学校：Manchester Metropolitan University, U.K. 和 Lebanese American University, Lebanon
- 邮箱：[email protected]

论文出处

期刊名称：IEEE Transactions on Consumer Electronics
卷号：70
期号：4
日期：2024年11月
DOI：10.1109/TCE.2024.3445290

论文主要内容

摘要

本文提出了一种创新的框架TinyDeepUAV，用于解决无人机与资源受限的边缘设备之间的计算卸载问题。该框架采用多目标深度强化学习（DRL）技术，通过TinyML的概念在延迟和能耗之间找到平衡。TinyDeepUAV开发了一个低复杂度的框架，使其能够在边缘设备上卸载任务。针对边缘无人机网络的动态特性，TinyDeepUAV建议使用向量强化方法，根据不同的用户偏好动态调整权重。此外，通过双斗士深度Q网络（D3QN）进一步优化了TinyDeepUAV的结构，以实现优化问题的最佳改进。模拟结果表明，该方法在延迟和能耗之间实现了权衡，能够更有效地进行卸载决策，并优于基准方法.

引言

近年来，无人机在消费电子中的应用日益增多，尤其是在关键情况下。物联网技术和廉价边缘计算设备的可用性为各种领域的功能增强提供了新的前景。然而，无人机与资源受限的边缘设备之间的计算卸载面临挑战。本文提出的TinyDeepUAV策略引入了一种基于边缘智能的新技术，与当前的DRL方法不同，TinyDeepUAV不使用加权和将多目标问题转化为单目标问题，而是通过向量奖励信号来更清晰地表示目标.

系统模型

本文研究了一个由U架无人机和F个边缘设备组成的无人机系统。无人机在预设区域内飞行，每个无人机都配备有处理服务器，能够处理边缘设备的计算密集型任务。每个边缘设备都有一个计算密集型应用，通过有向无环图（DAG）模拟任务调度问题。系统模型包括延迟模型、能量模型、信道模型等，详细描述了无人机和边缘设备在任务卸载中的计算和传输过程.

DRL框架

本文采用多目标马尔可夫决策过程（MDP）来定义无人机的计算卸载问题。状态空间、动作空间、状态转移概率矩阵、奖励函数、偏好空间和标量化函数等构成了多目标MDP的六元组。通过将标量奖励扩展为向量奖励，TinyDeepUAV能够更好地处理多目标优化问题.

结果与讨论

本文通过MATLAB 2020a对提出的边缘无人机环境进行了模拟。假设网络中有两个边缘设备和三个配备边缘服务器的无人机。通过与MADDPG、DQN和DRL等基准框架的比较，验证了TinyDeepUAV在延迟和能耗方面的优越性能。实验结果表明，TinyDeepUAV在不同的系统参数（如学习率、批量大小和缓冲区大小）下均表现出良好的性能.

结论与未来工作

本文利用TinyML和多目标MDP优化了资源受限的边缘无人机的计算卸载中的延迟和能耗。通过D3QN框架，本文提出了一种更新的多目标问题，以应对无人机系统的动态特性和基于消费的边缘设备中的不确定性。未来的研究将探讨将进化算法与强化学习相结合的混合解决方案，并在决策中增加定价和风险意识，以解决无人机计算卸载问题.