一种用于无人机任务卸载的轻量级深度强化学习框架

中文论文标题

TinyDeepUAV:一种用于无人机任务卸载的轻量级深度强化学习框架

英文论文标题

TinyDeepUAV: A Tiny Deep Reinforcement Learning Framework for UAV Task Offloading in Edge-Based Consumer Electronics

作者信息

  • Sujit Bebortta (Graduate Student Member, IEEE)

    • 部门:计算机科学系
    • 学校:Ravenshaw University
    • 地址:Cuttack 753003, India
    • 邮箱:sujitbebortta.cs@ravenshawuniversity.ac.in
  • Subhranshu Sekhar Tripathy

    • 学校:KIIT Deemed to be University
    • 地址:Bhubaneswar 751024, India
    • 邮箱:subhranshu.008@gmail.com
  • Surbhi Bhatia Khan

    • 学校:University of Salford, U.K. 和 Lebanese American University, Lebanon
    • 邮箱:s.khan138@salford.ac.uk
  • Maryam M. Al Dabel

    • 学校:University of Hafr Al Batin, Saudi Arabia
    • 邮箱:maldabel@uhb.edu.sa
  • Ahlam Almusharraf

    • 学校:Princess Nourah bint Abdulrahman University, Saudi Arabia
    • 邮箱:aialmusharraf@pnu.edu.sa
  • Ali Kashif Bashir (Senior Member, IEEE)

    • 学校:Manchester Metropolitan University, U.K. 和 Lebanese American University, Lebanon
    • 邮箱:dr.alikashif.b@ieee.org

论文出处

  • 期刊名称:IEEE Transactions on Consumer Electronics
  • 卷号:70
  • 期号:4
  • 日期:2024年11月
  • DOI:10.1109/TCE.2024.3445290

论文主要内容

摘要

本文提出了一种创新的框架TinyDeepUAV,用于解决无人机与资源受限的边缘设备之间的计算卸载问题。该框架采用多目标深度强化学习(DRL)技术,通过TinyML的概念在延迟和能耗之间找到平衡。TinyDeepUAV开发了一个低复杂度的框架,使其能够在边缘设备上卸载任务。针对边缘无人机网络的动态特性,TinyDeepUAV建议使用向量强化方法,根据不同的用户偏好动态调整权重。此外,通过双斗士深度Q网络(D3QN)进一步优化了TinyDeepUAV的结构,以实现优化问题的最佳改进。模拟结果表明,该方法在延迟和能耗之间实现了权衡,能够更有效地进行卸载决策,并优于基准方法.

引言

近年来,无人机在消费电子中的应用日益增多,尤其是在关键情况下。物联网技术和廉价边缘计算设备的可用性为各种领域的功能增强提供了新的前景。然而,无人机与资源受限的边缘设备之间的计算卸载面临挑战。本文提出的TinyDeepUAV策略引入了一种基于边缘智能的新技术,与当前的DRL方法不同,TinyDeepUAV不使用加权和将多目标问题转化为单目标问题,而是通过向量奖励信号来更清晰地表示目标.

相关工作

本文回顾了无线信道增益的时变性对复杂城市环境中卸载选择的影响,以及传统边缘计算网络在电池充电优化中的性能优化。相关研究主要集中在任务卸载机制和无人机轨迹优化、资源卸载和轨迹设计等方面。这些研究通常假设所有任务具有相同的资源需求,而本文则考虑了边缘网络计算工作负载的多样性.

系统模型

本文研究了一个由U架无人机和F个边缘设备组成的无人机系统。无人机在预设区域内飞行,每个无人机都配备有处理服务器,能够处理边缘设备的计算密集型任务。每个边缘设备都有一个计算密集型应用,通过有向无环图(DAG)模拟任务调度问题。系统模型包括延迟模型、能量模型、信道模型等,详细描述了无人机和边缘设备在任务卸载中的计算和传输过程.

DRL框架

本文采用多目标马尔可夫决策过程(MDP)来定义无人机的计算卸载问题。状态空间、动作空间、状态转移概率矩阵、奖励函数、偏好空间和标量化函数等构成了多目标MDP的六元组。通过将标量奖励扩展为向量奖励,TinyDeepUAV能够更好地处理多目标优化问题.

结果与讨论

本文通过MATLAB 2020a对提出的边缘无人机环境进行了模拟。假设网络中有两个边缘设备和三个配备边缘服务器的无人机。通过与MADDPG、DQN和DRL等基准框架的比较,验证了TinyDeepUAV在延迟和能耗方面的优越性能。实验结果表明,TinyDeepUAV在不同的系统参数(如学习率、批量大小和缓冲区大小)下均表现出良好的性能.

结论与未来工作

本文利用TinyML和多目标MDP优化了资源受限的边缘无人机的计算卸载中的延迟和能耗。通过D3QN框架,本文提出了一种更新的多目标问题,以应对无人机系统的动态特性和基于消费的边缘设备中的不确定性。未来的研究将探讨将进化算法与强化学习相结合的混合解决方案,并在决策中增加定价和风险意识,以解决无人机计算卸载问题.

相关推荐
算家计算8 分钟前
AI也能像人一样拥有长时记忆了!谷歌最新研究攻克AI核心难题
人工智能·机器学习·资讯
笨鸟笃行43 分钟前
人工智能备考2.2.1-2.2.5总结
人工智能
shayudiandian1 小时前
代码生成与开发辅助
人工智能
微盛AI企微管家1 小时前
企业微信AI聊天agent:优化企业微信客户运营的推荐工具
大数据·人工智能·微信·企业微信
auutuumn1 小时前
PyTorch深度学习实战01:全流程体验深度学习
人工智能·pytorch·深度学习
量子位1 小时前
机器人“会用手”了!银河通用首破手掌任意朝向旋转难题,拧螺丝、砸钉子样样精通
人工智能·aigc
双向332 小时前
共绩算力赋能大模型:QWEN-2.5-7B云部署实战解析
人工智能
文心快码BaiduComate2 小时前
双十一将至,用Rules玩转电商场景提效
前端·人工智能·后端
B站_计算机毕业设计之家2 小时前
深度学习:Yolo水果检测识别系统 深度学习算法 pyqt界面 训练集测试集 深度学习 数据库 大数据 (建议收藏)✅
数据库·人工智能·python·深度学习·算法·yolo·pyqt
有来技术2 小时前
vite-plugin-vue-mcp:在 Vue 3 + Vite 中启用 MCP,让 AI 理解并调试你的应用
前端·vue.js·人工智能