【与身俱能】无人机智能体(学习笔记)

最近在研究无人机,感觉无人机很有意思

发现两篇不错的论文,放在这里当做学习笔记

第一篇论文指导思路不错,但是代码未开源

第二篇论文代码开源,模型开源,重点记录第二篇论文

论文一

搜索全网""大脑"与"小脑"的完美结合:基于多模态大模型的无人机智能体AeroAgent"关于这个文章的介绍很多,北京航空航天大学智能无人机团队周尧明教授团队等研究人员

作者:
Haoran Zhao 1 , 3 , Fengxing Pan 1 , 3 , Huqiuyue Ping 2 , 3 , Yaoming Zhou 1
Beihang University, 2 Zhejiang University, 3 qingniaoAI

该论文实现了四个任务:野火搜索与救援基于视觉的着陆基础设施检查 和**安全导航**。这些任务不仅涵盖了无人机在工业应用中的典型场景,还充分测试了AeroAgent在复杂、动态环境中的表现。

具体表现

  • 环境感知:AeroAgent通过多模态传感器数据(如视觉、红外、激光雷达等)全面感知环境,识别障碍物和个体的位置。
  • 路径规划:AeroAgent能够根据环境信息生成最优的救援路径,避开障碍物,确保无人机的安全飞行。
  • 任务执行:AeroAgent能够高效执行救援任务,确保个体在最短时间内安全撤离危险区域。

论文二

搜索全网"北航团队实现「说句话就能飞」!UAV-FlowColosseo:语言交互无人机控制新突破,开放场景真机实测成功!"即可搜到很多相关介绍

  • 作者:Xiangyu Wang1, Donglin Yang1, Yue Liao2,3, Wenhao Zheng1, Bin Dai4, Wenjun Wu1,4, Hongsheng Li3, Si Liu1
  • 单位:1北京航空航天大学人工智能研究院,2新加坡国立大学,3MMLab,4北京航空航天大学杭州国际创新研究院
  • 论文标题:UAV-FlowColosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning
  • 论文链接:https://arxiv.org/pdf/2505.15725
  • 项目主页:https://prince687028.github.io/

核心能力

  1. 运动意图理解:理解并执行基本飞行行为(如起飞、平移、旋转等)。
  2. 空间上下文定位:将语言中的空间引用与视觉观察相结合,生成环境感知的轨迹。

指令类型

  1. 原始运动指令(Primitive Motion Commands):如起飞(takeoff)、平移(translation)、旋转(rotation)等,评估对基本运动指令的执行能力。
  2. 对象交互指令(Object-Interactive Commands):如靠近(approach)、环绕(orbit)、穿过(pass through)、悬停(hover)等,评估基于视觉感知的空间推理能力。

数据收集环境:在三个大学校园环境中收集数据,总面积达5.02平方公里,包含丰富的语义元素(如行人、车辆、植被、建筑等),为多样化的飞行行为提供了丰富的视觉上下文。

数据收集方式

  1. 飞行员操作 :由经验丰富的无人机飞行员手动操作,使用DJI Mavic 3T RTK等商业级平台,配备4K相机和RTK GPS模块,确保高分辨率视频和厘米级轨迹精度。
  2. 指令引导:飞行员根据预定义的指令模板执行飞行任务,指令分为原始运动指令和对象交互指令。
  3. 多样化执行:每个指令从多个起始位置执行,增加行为多样性。

数据同步与对齐

  1. 视频与轨迹同步:通过时间戳将飞行日志与视频帧对齐,将全球GPS坐标转换为局部笛卡尔坐标系,并计算相对方向。
  2. 采样率:视频以5Hz的频率均匀采样,每个帧与对应的无人机状态配对。

语言指令标注

  1. 过滤与标注:专业标注团队对飞行视频进行审查,过滤掉模糊或不连贯的片段,并为剩余片段编写精确的语言指令。
  2. 语言多样化:使用大型语言模型(LLM)生成多样化的语言指令,创建固定命令集和开放词汇命令集。
  • 结论
    • UAV-Flow基准为研究如何通过模仿学习使无人机能够解释语言指令并执行精细动态动作提供了一个新的视角。
    • 通过真实世界的数据收集和仿真评估,证明了VLA模型在语言引导的无人机精细控制任务中的优越性,并展示了将这些模型部署到真实无人机上的可行性。

项目地址有视频

https://prince687028.github.io/UAV-Flow/

代码地址

https://github.com/buaa-colalab/UAV-Flow/tree/main/OpenVLA-UAV

相关推荐
云卓SKYDROID13 小时前
无人机续航模块技术分析
科技·无人机·高科技·续航
云卓SKYDROID2 天前
维护与保养小贴士:如何让你的云卓G16遥控器持久如新?
科技·无人机·遥控器·维护·高科技
Tfly__2 天前
在PX4 gazebo仿真中加入Mid360(最新)
linux·人工智能·自动驾驶·ros·无人机·px4·mid360
CS_Zero3 天前
无人机板载计算机树莓派等各种派设置飞控数传
无人机·飞控
搬砖者(视觉算法工程师)3 天前
工具科普介绍之Spherasim:无人机与机器人开发领域的工具
机器人·无人机
hedley(●'◡'●)3 天前
基于cesium和vue的大疆司空模仿程序
前端·javascript·vue.js·python·typescript·无人机
Nebula_g4 天前
线程进阶: 无人机自动防空平台开发教程(更新)
java·开发语言·数据结构·学习·算法·无人机
小O的算法实验室4 天前
2025年COR SCI2区,考虑风场影响的无人机搜救覆盖路径规划精确界算法,深度解析+性能实测
算法·无人机·论文复现·智能算法·智能算法改进
Jaxson Lin4 天前
Java编程进阶:智能仿真无人机项目4.0
java·开发语言·无人机
云卓SKYDROID4 天前
为何云卓科技C11吊舱能适配多种规格载具?
科技·无人机·飞机·吊舱·高科技·云卓科技