俄罗斯无人机自主任务规划!UAV-CodeAgents:基于多智能体ReAct和视觉语言推理的可扩展无人机任务规划

  • 作者:Oleg Sautenkov 1 ^{1} 1, Yasheerah Yaqoot 1 ^{1} 1, Muhammad Ahsan Mustafa 1 ^{1} 1, Faryal Batool 1 ^{1} 1, Jeffrin Sam 1 ^{1} 1, Artem Lykov 1 ^{1} 1, Chih-Yung Wen 2 ^{2} 2, and Dzmitry Tsetserukou 1 ^{1} 1
  • 单位: 1 ^{1} 1斯科尔科沃科学技术研究院数字工程中心智能空间机器人实验室, 2 ^{2} 2香港理工大学航空与航空工程系AiRo实验室
  • 论文标题:UAV-CodeAgents: Scalable UAV Mission Planning via Multi-Agent ReAct and Vision-Language Reasoning
  • 论文链接:https://arxiv.org/pdf/2505.07236?

主要贡献

  1. 提出了 UAV-CodeAgents,一个多智能体框架,结合了LLMs和VLMs,用于基于视觉-语言驱动的无人机任务生成。
  2. 发布了用于评估从航拍图像和文本提示中进行语义定位和协作规划的基准数据集,专注于卫星图像上的像素级定位精度。
  3. 设计了面向无人机的反应式思考循环(ReAct),使智能体能够在动态任务环境中进行迭代视觉推理、不确定性解决和计划细化。
  4. 在9000张注释卫星图像上对Qwen2.5VL-7B进行了微调,实现了语义语言实体与卫星图像坐标之间的精确对齐,用于精确航点提取。

研究背景

  • 无人机系统在复杂任务中的应用日益广泛,这些任务需要高水平的理解和空间精度,例如大规模环境评估和动态地形中的时间敏感操作。
  • 传统的无人机规划方法依赖于预定义的地图、手动工程启发式方法或手动航点配置,限制了其适应性和可扩展性。
  • 近年来,多模态人工智能(特别是LLMs和VLMs)的发展为无人机任务规划提供了新的可能性,但现有框架大多在封闭环境或单智能体设置中运行,未能充分利用协作推理或基于空间的规划潜力。

研究方法

系统架构

UAV-CodeAgents是一个模块化和可扩展的框架,由以下核心组件构成:

  1. 空域管理智能体(AMA):负责解释自然语言命令、分析卫星图像,并生成空间上对齐的任务计划。它结合了LLMs(如GPT-4、Qwen2.5VL)来解析用户输入,并将其分解为结构化任务(如搜索、定位、验证)。
  2. 无人机智能体(UAV Agent):执行分配的任务,具备轻量级推理能力,允许实时重新评估任务步骤和环境变化。它执行基于计划路线的航点跟随,捕获高分辨率RGB图像,并进行VLM推理以更新任务状态(例如确认火灾、定位目标)。

通信与同步

系统基于 smolagents 框架构建,支持多智能体协调。智能体通过简单的消息传递接口通信,定期报告其状态(位置、图像、语义注释),支持容错和异步操作。

反应式推理循环(ReAct)

ReAct是系统的核心,使智能体能够迭代反思模糊或不完整的输入,重新评估当前假设,并相应地修订其行动。循环包括以下步骤:

  1. 观察:通过无人机图像或卫星快照捕获当前场景。
  2. 描述:使用VLM生成高标记长度的场景描述。
  3. 推理:使用LLM在任务查询的上下文中解释场景描述。
  4. 决策:识别或更新航点,分配新的无人机角色,或修订任务优先级。
  5. 行动:将更新后的指令部署到相关的无人机智能体。

像素级定位机制

像素级定位是UAV-CodeAgents的关键组件,它通过微调Qwen-VL-2.5-7B模型,在9000张注释卫星图像上进行监督微调(SFT),以实现精确的语义目标定位。

实验

实验设置

  • 实验使用了Qwen系列模型,特别是Qwen2.5-72B模型,用于高级任务规划和智能体间协调。视觉感知任务由Qwen2.5VL-32B模型处理。
  • 实验评估了两种不同的采样温度(0.5和0.7),以分析决策制定中的确定性与创造力之间的权衡。

性能指标

检测性能使用以下指标衡量:
Time-to-Detection (TTD) = 1 N ∑ i = 1 N ( t ( i ) detect − t ( i ) query ) \text{Time-to-Detection (TTD)} = \frac{1}{N} \sum_{i=1}^{N} (t(i){\text{detect}} - t(i){\text{query}}) Time-to-Detection (TTD)=N1i=1∑N(t(i)detect−t(i)query)

其中 N = 30 个测试案例,排除假阳性和假阴性案例。

实验结果

  • 实验结果表明,较低的温度设置(0.5)更受青睐,因为它能够带来更好的一致性、更快的执行速度和更高的整体性能。
  • 温度为0.7的模型不仅成功样本较少(26个对比28个),而且平均任务持续时间更长(105.29秒对比96.96秒)。
  • 此外,温度为0.7的设置在某些样本上表现不佳,例如样本6、23、24和29,无法生成连贯的计划或错误解释了图像-语言输入。

结论与未来工作

  • 结论
    • UAV-CodeAgents是一个可扩展的、基于视觉-语言引导的多智能体系统,用于自主无人机任务生成。该系统通过Qwen2.5系列的LLMs和VLMs实现去中心化推理、像素级语义定位和通过反应式思考循环的自适应规划。
    • 实验结果表明,系统在较低采样温度(0.5)下表现出更高的可靠性和效率,成功处理了30个图像中的28个,成功率为93%,平均完成时间为96.96秒。
  • 未来工作
    • 研究人员计划将CodeAgents扩展到无人机群,集成实时遥测技术和传感器支持,以实现在灾难响应和环境监测等现实场景中的强大无人机群协调能力。
相关推荐
mit6.8242 分钟前
大模型基础设施 KV Cache
人工智能
Haibakeji2 分钟前
长沙定制开发教育APP哪家软件公司强
大数据·人工智能
Swift社区2 分钟前
AI Native 鸿蒙 App:从页面驱动到智能驱动的架构革命
人工智能·架构·harmonyos
老徐聊GEO3 分钟前
芜湖Ai搜索获客亲测有效案例分享
人工智能·python
良枫4 分钟前
02自进化 Agent 的整体架构
人工智能
TCW11216 分钟前
AI底层系列:用C++实现线性代数的公式推导与算法设计-基础篇-5.矩阵方程
人工智能·线性代数·算法
一生了无挂6 分钟前
深度解析Token、RAG与Agent的层级逻辑、协作关系及落地价值
大数据·人工智能
智讯天下7 分钟前
155颗芯片“把脉“ AI中医体检暖人心 智赋岐黄携AI四诊仪走进天星医药开展公益健康服务
人工智能
叫我:松哥8 分钟前
基于机器学习和flask的体育健身风险智能分析系统,系统集成DeepSeek、聚类算法、分类算法等,准确率达90%
人工智能·python·神经网络·算法·机器学习·flask·聚类
SEO_juper8 分钟前
Semrush Site Audit 全站体检:自动出完整报告 + AI 逐条解析报错,附带批量整改落地方案
人工智能·seo·外贸·geo·独立站·跨境电商独立站·gsc