低空城市场景下的多无人机任务规划与动态协调!CoordField:无人机任务分配的智能协调场

  • 作者:Tengchao Zhang 1 ^{1} 1 , Yonglin Tian 2 ^{2} 2 , Fei Lin 1 ^{1} 1, Jun Huang 1 ^{1} 1, Patrik P. Süli 3 ^{3} 3, Rui Qin 2 , 4 ^{2,4} 2,4, and Fei-Yue Wang 5 , 1 ^{5,1} 5,1
  • 单位: 1 ^{1} 1澳门科技大学创新工程学院工程科学系, 2 ^{2} 2中科院自动化研究所多模态人工智能系统国家重点实验室, 3 ^{3} 3匈牙利Óbuda大学, 4 ^{4} 4天津大学复杂管理系统计算与分析实验室, 5 ^{5} 5中国科学院大学中国经济社会研究中心
  • 论文标题:CoordField: Coordination Field for Agentic UAV Task Allocation In Low-altitude Urban Scenarios
  • 论文链接:https://arxiv.org/pdf/2505.00091

主要贡献

  • 提出了 CoordField,这是一种基于协调场的无人机群任务分配方法,通过不断更新的势场来表示城市环境中任务的紧急程度和无人机的影响,增强了实时响应能力。
  • 提出了一种无人机群的代理系统,能够从自然语言描述中进行高精度的任务理解,并通过具有不同角色的专门协作代理支持动态规划和部署。
  • 在相同任务场景下,将该系统与多个基线模型进行对比评估,验证了其在城市环境中卓越的协调性能。

研究背景

  • 随着无人机群在城市环境中执行行人检测、车辆跟踪和交通信号监控等复杂任务的需求不断增加,多无人机系统相较于单无人机在覆盖范围、系统冗余和运行效率方面具有显著优势。
  • 然而,任务复杂性的增加和城市环境的高度动态性也带来了巨大挑战。有效的任务分配需要系统能够持续重新分配无人机到新任务,适应无人机故障和任务优先级的变化,并在没有集中控制的情况下实现去中心化的智能协调。
  • 现有的优化算法(如灰狼优化算法和鲸鱼优化算法)通常针对特定类型的任务,难以适应在高度动态环境中运行的异构无人机集群。随着大语言模型(LLM)的发展,其强大的语义理解和工具调用能力为解决此类问题提供了新的思路。
  • 然而,现有基于LLM的方法在处理复杂、快速变化环境中的多任务时仍存在显著局限性。
  • 代理人工智能(Agentic AI)作为一种新兴的灵活且统一的方法,能够更好地应对这些挑战。

基础知识

智能体系统

  • 定义与特点:代理人工智能(Agentic AI)是一种新型智能范式,强调自主感知、目标驱动的规划和自适应决策。与传统被动方法不同,Agentic AI注重代理的持续目标追求、上下文记忆、自适应工具使用和自我反思能力。这些能力使代理能够在动态环境中更自主地协调行动。
  • 应用场景:在复杂的城市任务场景中,Agentic AI能够帮助无人机理解高级指令,有效分配子任务,并在任务变化或代理故障时快速重新配置协调策略,实现真正的自主协作。
  • 理论基础:基于LLM的代理系统在复杂任务分解和顺序执行方面表现出强大的推理和规划能力,为构建自主多无人机系统提供了理论和方法基础。

大语言模型用于自然语言任务解析

  • LLM的优势:大语言模型(LLM)在自然语言理解和通用推理方面取得了快速进展,能够处理模糊语义、条件逻辑和空间语言,表现出比传统基于规则的解析器更强的泛化能力。
  • 任务生成框架:研究人员开发了多种框架,如Code-as-Policies和Prompt2Action,使LLM能够将自然语言指令映射为可执行的任务代码。这些方法通常结合少样本提示和约束提示,以提高生成输出的有效性和安全性。
  • GSCE框架:GSCE框架通过提供指南、技能API、约束和示例,指导LLM生成符合物理约束和操作约束的控制程序,展示了提示工程在无人机任务规划中的实际价值。

基于场的协调与分配

  • 场驱动方法:场驱动方法,尤其是人工势场(APF)方法,已被广泛应用于移动机器人领域。该方法将目标点建模为吸引源,障碍物建模为排斥源,机器人通过沿着势场梯度下降来导航,从而实现路径规划和实时避障。
  • 交通流建模应用:在交通流建模中,场驱动方法用于模拟交通动态的演变,将车辆建模为受交通密度场、速度场等因素影响的粒子,能够更有效地捕捉宏观和微观变化。
  • 研究思路:受此启发,本研究采用类似策略,将任务需求和无人机工作负载建模为连续空间场,通过动态演化的势场引导无人机运动和分配任务。该方法具有去中心化结构、强实时适应性和高响应性,特别适合任务分布不均匀且动态变化的城市场景。

研究方法

语义理解模块

  • 功能:该模块负责解释用户提供的自然语言输入,并将其转换为适合下游规划和执行的结构化任务表示。它作为人机交互界面,通过语言命令实现与无人机群的直观交互。
  • 任务翻译过程 :LLM将模糊或抽象的自然语言指令映射为形式化的约束,提取关键元素(如目标位置、任务类型和优先级),并生成结构化任务元组:
    Task j = ( x j , y j , w j , type j ) \text{Task}_j = (x_j, y_j, w_j, \text{type}_j) Taskj=(xj,yj,wj,typej)
    其中, ( x j , y j ) (x_j, y_j) (xj,yj) 表示目标的空间坐标, w j w_j wj 表示任务权重或优先级, type j \text{type}_j typej 表示任务的语义类别(如巡逻、跟踪、检查)。

规划模块和协调场

  • 规划模块功能:将语义解析得到的任务元组转换为动态的无人机协调策略。规划代理将任务元组和无人机状态数据输入协调场,协调场通过感知映射、任务分解和任务分配三个子模块,以闭环方式适应任务需求和空间分布模式的变化。
  • 感知映射
    • 构建时间变化的势场 ϕ ( x , y , t ) \phi(x, y, t) ϕ(x,y,t) 来表示高优先级任务区域的空间强度和分布。该标量场由加权高斯函数的和组成:
      ϕ ( x , y , t ) = ∑ j = 1 M w j ( t ) ⋅ exp ⁡ ( − ∥ ( x , y ) − ( x j ( t ) , y j ( t ) ) ∥ 2 2 σ j 2 ) \phi(x, y, t) = \sum_{j=1}^{M} w_j(t) \cdot \exp\left(-\frac{\|(x, y) - (x_j(t), y_j(t))\|^2}{2\sigma_j^2}\right) ϕ(x,y,t)=j=1∑Mwj(t)⋅exp(−2σj2∥(x,y)−(xj(t),yj(t))∥2)
      其中, σ j \sigma_j σj 表示任务 j j j 的空间影响半径。
    • 势场在建筑物等障碍物区域内被显式设置为零。
  • 任务分解
    • 构建时间变化的矢量场 v ( x , y , t ) v(x, y, t) v(x,y,t),表示无人机群的运动速度场。基于流体力学的纳维-斯托克斯方程定义运动方程:
      d v d t = − 1 ρ ∇ p + ν ∇ 2 v + F task ( ϕ ) \frac{dv}{dt} = -\frac{1}{\rho}\nabla p + \nu \nabla^2 v + F_{\text{task}}(\phi) dtdv=−ρ1∇p+ν∇2v+Ftask(ϕ)
      其中, v ( x , y , t ) = ( v x , v y ) v(x, y, t) = (v_x, v_y) v(x,y,t)=(vx,vy) 表示2D空间中每一点的速度向量, ν \nu ν 表示流体粘度, F task = k ∇ ϕ F_{\text{task}} = k \nabla \phi Ftask=k∇ϕ 是用于引导无人机向高势场值区域移动的外力项。
    • 扩散项 ν ∇ 2 v \nu \nabla^2 v ν∇2v 有助于防止无人机过度集中在单个区域,增强空间分布和系统鲁棒性。
  • 任务分配
    • 引入局部涡旋机制,为每个无人机生成一个旋转场,作为动态排斥控制策略。每个无人机 i i i 在当前位置 ( x i , y i ) (x_i, y_i) (xi,yi) 生成一个旋转场:
      ω i ( r ) = Γ i 2 π r exp ⁡ ( − ( r r 0 ) 2 ) \omega_i(r) = \frac{\Gamma_i}{2\pi r} \exp\left(-\left(\frac{r}{r_0}\right)^2\right) ωi(r)=2πrΓiexp(−(r0r)2)
      其中, r r r 是从无人机 i i i 的径向距离, r 0 r_0 r0 是场的影响半径, Γ i \Gamma_i Γi 是由无人机的能力分数 c i ( t ) c_i(t) ci(t) 和局部势场值 ϕ ( x i , y i , t ) \phi(x_i, y_i, t) ϕ(xi,yi,t) 决定的循环强度:
      Γ i ( t ) = c i ( t ) ⋅ ϕ ( x i ( t ) , y i ( t ) , t ) ∑ j = 1 N c j ( t ) \Gamma_i(t) = \frac{c_i(t) \cdot \phi(x_i(t), y_i(t), t)}{\sum_{j=1}^{N} c_j(t)} Γi(t)=∑j=1Ncj(t)ci(t)⋅ϕ(xi(t),yi(t),t)
    • 基于该场,系统计算每个无人机的切向速度分量 v θ , i ( r ) v_{\theta,i}(r) vθ,i(r),形成围绕每个无人机的排斥速度,模拟代理间的避碰动态:
      v θ , i ( r ) = Γ i 2 π r ( 1 − exp ⁡ ( − ( r r 0 ) 2 ) ) v_{\theta,i}(r) = \frac{\Gamma_i}{2\pi r} \left(1 - \exp\left(-\left(\frac{r}{r_0}\right)^2\right)\right) vθ,i(r)=2πrΓi(1−exp(−(r0r)2))
    • 最终,每个无人机的控制速度向量通过将全局引导速度场 v ( x , y , t ) v(x, y, t) v(x,y,t) 与所有无人机生成的切向排斥速度叠加得到:
      v new ( x , y , t ) = v ( x , y , t ) + ∑ i = 1 n v θ , i ( x , y , t ) v_{\text{new}}(x, y, t) = v(x, y, t) + \sum_{i=1}^{n} v_{\theta,i}(x, y, t) vnew(x,y,t)=v(x,y,t)+i=1∑nvθ,i(x,y,t)
      该机制确保无人机不仅被引导到高优先级任务区域,还通过局部涡旋效应相互排斥,从而在完全去中心化的设置中实现动态稳定的任务分配和协调行为。

执行模块

  • 核心任务 :将规划模块的输出(包括流场矢量 v new ( x , y , t ) v_{\text{new}}(x, y, t) vnew(x,y,t) 和无人机任务分配信息)转换为物理或模拟无人机可执行的实时控制命令。
  • 执行过程
    • 执行代理通过标准化API接口(如MAVSDK、ROS2或AirSim)与底层控制系统通信。
    • 在任务执行阶段,每架无人机根据当前位置 ( x , y , t ) (x, y, t) (x,y,t) 从预计算的控制场 v new ( x , y , t ) v_{\text{new}}(x, y, t) vnew(x,y,t) 中采样局部速度向量,并将其用作下一个导航方向。
    • 执行代理根据任务类型生成飞行控制命令,并将其发送到无人机平台。
    • 无人机在动态环境中持续报告其状态(包括位置、速度和执行状态),用于实时刷新任务势场 ϕ ( x , y , t ) \phi(x, y, t) ϕ(x,y,t) 和流场矢量 v ( x , y , t ) v(x, y, t) v(x,y,t)。
    • 当环境发生变化(如出现新任务目标、完成当前任务或引入障碍物)时,系统重新计算相关场,并通过执行代理提供更新的控制指令。
  • 闭环机制:感知-规划-执行循环以高频率运行,确保系统表现出强大的响应能力和去中心化的动态协调能力。无人机能够在复杂多变的环境中重新规划、协同避障和目标适应,实现真正的自适应智能行为。

实验

环境和无人机配置

  • 模拟环境:实验在一个定制的二维城市模拟环境中进行,覆盖1000×1000网格空间,包含城市道路网络、建筑物、交通信号灯、行人和车辆。
  • 无人机配置:共部署20架无人机,分为巡逻无人机和跟踪无人机两种类型,每种10架。两种类型的无人机具有相同的飞行性能,但在感知和识别能力上有所不同。
  • 任务指令:任务指令通过自然语言输入,例如"请检查人群和车辆",通过DeepSeek API解析为结构化任务信息。

实验结果与分析

  • 任务密度分布:通过热力图展示了城市环境中任务密度的分布情况,红色和黄色区域表示任务热点区域,系统能够动态地重新分配无人机资源以应对这些高需求区域。
  • 无人机轨迹优化:展示了优化后的无人机轨迹,每条蓝色轨迹连接起点(绿色三角形)和任务目标(红色圆圈),表明系统能够基于最小旅行距离进行全局路径优化,同时避免拥堵和冲突。
  • 性能评估指标
    • 任务解析准确率(TPA):衡量自然语言指令正确解析为结构化任务表示的比例。该系统达到了96%的最高TPA,显著优于其他基线模型。
    • 覆盖效率(CE):量化无人机有效覆盖任务定义区域的程度。该系统平均覆盖效率为95%,在任务突发场景下仍能保持超过80%的有效覆盖。
    • 任务负载平衡(TLB):评估任务负载在所有无人机之间的分布均匀性。该系统展示了最低的任务分配密度梯度范数,仅为0.8,显著降低了资源聚集,增强了空间协调性。
    • 无人机利用率(UUR):表示参与任务执行的无人机比例。该系统达到了97%的最高利用率,表明大多数无人机始终保持活跃状态。
  • 对比结果:如下表所示,该系统在多个关键性能指标上均优于Deepseek-v3、GPT-4o、Claude-3-7-Sonnet、LLaMA-4-Scout和Gemini-2.5-Pro等基线模型。
模型 TPA CE TLB UUR
Our method 96% 95% 0.8 97%
Deepseek-v3 70% 78% 2.1 85%
GPT-4o 74% 85% 1.5 82%
Claude-3-7-Sonnet 76% 80% 1.6 84%
LLaMA-4-Scout 72% 79% 1.9 83%
Gemini-2.5-Pro 73% 81% 1.7 84%

结论与未来工作

  • 结论
    • 该论文提出的协调场代理系统在复杂动态的城市环境中展示了高效率、稳定性和适应性,能够实时解析自然语言指令并通过协调场引导实现高效的任务分配。实验结果验证了其优越性能。
  • 未来工作
    • 未来的工作计划将系统扩展到三维场景和真实世界的无人机群中。
相关推荐
A林玖4 分钟前
【机器学习】主成分分析 (PCA)
人工智能·机器学习
Jamence8 分钟前
多模态大语言模型arxiv论文略读(108)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
tongxianchao8 分钟前
双空间知识蒸馏用于大语言模型
人工智能·语言模型·自然语言处理
苗老大11 分钟前
MMRL: Multi-Modal Representation Learning for Vision-Language Models(多模态表示学习)
人工智能·学习·语言模型
中达瑞和-高光谱·多光谱21 分钟前
中达瑞和SHIS高光谱相机在黑色水彩笔墨迹鉴定中的应用
人工智能·数码相机
F_D_Z40 分钟前
8K样本在DeepSeek-R1-7B模型上的复现效果
人工智能·deepseek·deepseek-r1-7b
地藏Kelvin1 小时前
Spring Ai 从Demo到搭建套壳项目(二)实现deepseek+MCP client让高德生成昆明游玩4天攻略
人工智能·spring boot·后端
猫天意1 小时前
【深度学习】为什么2个3×3的卷积可以相当于一个5×5的卷积核?为什么3个3×3的卷积相当于一个7×7的卷积核,到底区别在哪里?我们该如何使用?
人工智能·深度学习·神经网络·目标检测·视觉检测
AiTEN_Robotics1 小时前
仓库自动化搬运:自动叉车与AGV选型要点及核心技术解析
人工智能·机器人·自动化
飞哥数智坊2 小时前
Coze实战第12讲:轻松一句话搞定三餐计划、采购和制作,让AI助你健康饮食
人工智能·coze