一种用于无人机任务卸载的轻量级深度强化学习框架

中文论文标题

TinyDeepUAV:一种用于无人机任务卸载的轻量级深度强化学习框架

英文论文标题

TinyDeepUAV: A Tiny Deep Reinforcement Learning Framework for UAV Task Offloading in Edge-Based Consumer Electronics

作者信息

  • Sujit Bebortta (Graduate Student Member, IEEE)

    • 部门:计算机科学系
    • 学校:Ravenshaw University
    • 地址:Cuttack 753003, India
    • 邮箱:sujitbebortta.cs@ravenshawuniversity.ac.in
  • Subhranshu Sekhar Tripathy

    • 学校:KIIT Deemed to be University
    • 地址:Bhubaneswar 751024, India
    • 邮箱:subhranshu.008@gmail.com
  • Surbhi Bhatia Khan

    • 学校:University of Salford, U.K. 和 Lebanese American University, Lebanon
    • 邮箱:s.khan138@salford.ac.uk
  • Maryam M. Al Dabel

    • 学校:University of Hafr Al Batin, Saudi Arabia
    • 邮箱:maldabel@uhb.edu.sa
  • Ahlam Almusharraf

    • 学校:Princess Nourah bint Abdulrahman University, Saudi Arabia
    • 邮箱:aialmusharraf@pnu.edu.sa
  • Ali Kashif Bashir (Senior Member, IEEE)

    • 学校:Manchester Metropolitan University, U.K. 和 Lebanese American University, Lebanon
    • 邮箱:dr.alikashif.b@ieee.org

论文出处

  • 期刊名称:IEEE Transactions on Consumer Electronics
  • 卷号:70
  • 期号:4
  • 日期:2024年11月
  • DOI:10.1109/TCE.2024.3445290

论文主要内容

摘要

本文提出了一种创新的框架TinyDeepUAV,用于解决无人机与资源受限的边缘设备之间的计算卸载问题。该框架采用多目标深度强化学习(DRL)技术,通过TinyML的概念在延迟和能耗之间找到平衡。TinyDeepUAV开发了一个低复杂度的框架,使其能够在边缘设备上卸载任务。针对边缘无人机网络的动态特性,TinyDeepUAV建议使用向量强化方法,根据不同的用户偏好动态调整权重。此外,通过双斗士深度Q网络(D3QN)进一步优化了TinyDeepUAV的结构,以实现优化问题的最佳改进。模拟结果表明,该方法在延迟和能耗之间实现了权衡,能够更有效地进行卸载决策,并优于基准方法.

引言

近年来,无人机在消费电子中的应用日益增多,尤其是在关键情况下。物联网技术和廉价边缘计算设备的可用性为各种领域的功能增强提供了新的前景。然而,无人机与资源受限的边缘设备之间的计算卸载面临挑战。本文提出的TinyDeepUAV策略引入了一种基于边缘智能的新技术,与当前的DRL方法不同,TinyDeepUAV不使用加权和将多目标问题转化为单目标问题,而是通过向量奖励信号来更清晰地表示目标.

相关工作

本文回顾了无线信道增益的时变性对复杂城市环境中卸载选择的影响,以及传统边缘计算网络在电池充电优化中的性能优化。相关研究主要集中在任务卸载机制和无人机轨迹优化、资源卸载和轨迹设计等方面。这些研究通常假设所有任务具有相同的资源需求,而本文则考虑了边缘网络计算工作负载的多样性.

系统模型

本文研究了一个由U架无人机和F个边缘设备组成的无人机系统。无人机在预设区域内飞行,每个无人机都配备有处理服务器,能够处理边缘设备的计算密集型任务。每个边缘设备都有一个计算密集型应用,通过有向无环图(DAG)模拟任务调度问题。系统模型包括延迟模型、能量模型、信道模型等,详细描述了无人机和边缘设备在任务卸载中的计算和传输过程.

DRL框架

本文采用多目标马尔可夫决策过程(MDP)来定义无人机的计算卸载问题。状态空间、动作空间、状态转移概率矩阵、奖励函数、偏好空间和标量化函数等构成了多目标MDP的六元组。通过将标量奖励扩展为向量奖励,TinyDeepUAV能够更好地处理多目标优化问题.

结果与讨论

本文通过MATLAB 2020a对提出的边缘无人机环境进行了模拟。假设网络中有两个边缘设备和三个配备边缘服务器的无人机。通过与MADDPG、DQN和DRL等基准框架的比较,验证了TinyDeepUAV在延迟和能耗方面的优越性能。实验结果表明,TinyDeepUAV在不同的系统参数(如学习率、批量大小和缓冲区大小)下均表现出良好的性能.

结论与未来工作

本文利用TinyML和多目标MDP优化了资源受限的边缘无人机的计算卸载中的延迟和能耗。通过D3QN框架,本文提出了一种更新的多目标问题,以应对无人机系统的动态特性和基于消费的边缘设备中的不确定性。未来的研究将探讨将进化算法与强化学习相结合的混合解决方案,并在决策中增加定价和风险意识,以解决无人机计算卸载问题.

相关推荐
风象南2 小时前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia3 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮4 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬4 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia4 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区4 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两7 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪7 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232557 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源