基于运动对齐RGB与事件视觉线索的无标签长时序3D无人机轨迹预测

作者 : 梁瀚方1,†^{1,\dagger}1,†, 元盛海2,∗†^{2,*\dagger}2,∗† (IEEE会员), 刘芬2^22, 杨一卓2^22, 王冰1^11, 黄竹宇3^33, 施晨阳3^33, 金静3^33
(注：†\dagger† 表示共同第一作者，∗*∗ 表示通讯作者)

2507.03365v1.pdf

摘要

消费级无人机的广泛使用给空域安全和公共安全带来了严峻挑战。其高机动性和不可预测的运动轨迹使得无人机难以被跟踪和拦截。现有方法多集中于检测当前位置，而许多反无人机策略依赖于对未来轨迹的预测，因此仅靠反应式检测是无效的。为弥补这一关键空白，我们提出了一种基于视觉的无监督方法，用于预测无人机的三维轨迹。我们的方法首先利用无监督技术从原始激光雷达点云中提取无人机轨迹，然后通过运动一致性将这些轨迹与相机图像对齐，以生成可靠的伪标签。随后，我们以自监督的方式将运动学估计与视觉Mamba神经网络结合，以预测未来的无人机轨迹。我们在具有挑战性的MMAUD数据集上评估了该方法，包括包含广角、多模态传感器以及城市场景中动态无人机运动的V2序列。大量实验表明，我们的框架在长时序轨迹预测方面优于仅使用图像的有监督方法和音视频基线方法------在无需任何手动3D标签的情况下，将5秒3D预测误差降低了约40%40\%40%。所提出的系统为实时反无人机部署提供了一种经济高效、可扩展的替代方案，所有代码将在论文接收后公开，以支持机器人学社区的可重复研究。

关键词: 无人机轨迹预测, 事件视觉, 自监督学习, 长时序预测, 反无人机系统, 多模态感知, 3D姿态估计, 跨模态对齐, Vision-Mamba, 运动预测

一、引言 (INTRODUCTION)

无人机（UAV）的日益普及推动了其在空中监视[5]、最后一公里配送[6]和基础设施巡检[7]等多个民用领域的采用。这些能力的实现得益于低成本平台[8]、敏捷机动性[9]和自主集群协同[10]的进步。然而，使合法无人机应用成为可能的相同特性，也导致了恶意使用的激增，从隐私问题[11]到空域干扰[12]以及非法跨境运输[13]。无人机在尺寸、动力学和机载传感方面的广泛差异进一步增加了检测和拦截的复杂性，需要能够在现实世界约束下运行的可扩展且自适应的感知系统[14]。

近期的研究探索了利用雷达、激光雷达、音频和视觉模态的检测与跟踪框架[15]--[20]。尽管这些方法在监控应用中表现出有效性，但它们主要侧重于估计无人机的当前位置。然而，在主动防御场景中，提前不同时间量预测未来轨迹至关重要，尤其是针对高速空中目标（见图1）。由于无人机轨迹具有突发性和非线性特征[21]，且缺乏大规模标注的飞行数据集[22]，该预测任务本质上极具挑战性。尽管雷达和激光雷达能提供精确的时间信号[4]，但其成本和复杂性阻碍了规模化应用。同时，基于视觉的方法更易于获取[23],[24]，但对深度模糊、动态光照以及广角光学（如鱼眼镜头）固有的畸变仍然敏感。

克服这些挑战需要新一代无人机感知系统，从检测转向长时序预测，同时保持对噪声的鲁棒性、跨传感配置的可扩展性，以及不依赖密集手动标注的能力。在本工作中，我们确定了三个核心挑战：（i）不同帧率和时间漂移的模态间传感器异步；（ii）强烈的环境噪声，包括眩光、运动模糊和多模态退化；（iii）缺乏用于训练鲁棒轨迹预测器的真实标签。

为了解决这些挑战，我们提出了一种无监督的、基于视觉的3D无人机轨迹预测框架。其核心是一种时间K近邻（Temporal-KNN）聚类算法，用于从原始激光雷达数据中提取运动一致的轨迹。然后，通过跨模态运动一致性约束，将这些轨迹与RGB视频帧在时间上对齐，从而无需手动标注或无人机特定先验即可生成高质量的伪标签。为支持鲁棒学习，我们引入了一种自监督架构，集成了运动感知建模、轨迹投影和基于Vision-Mamba的检测。在训练过程中，我们结合了基于事件的运动线索[25]，这些线索由RGB数据模拟生成，以近似事件相机的异步感知特性[26]。这一设计基于两个因素：（i）模拟事件提供了一个保守的下限，因此任何真实事件传感器都应提供更优的运动线索[27]；（ii）在开发期间，无法获取同时具备高分辨率和宽视场（适合无人机尺度跟踪）的商业事件相机。在部署时，我们的系统仅依赖视频输入，使其在复杂空中环境中进行实时3D轨迹预测时具有高度的可扩展性和成本效益。

总结而言，我们的主要贡献如下：

我们识别并量化了传感器异步的影响------这是先前工作[17],[18],[28]中很少解决的问题------并表明我们的方法尽管存在由此产生的伪标签噪声，仍能实现鲁棒的性能。
我们提出了一种完全无监督的3D无人机轨迹提取与预测流程，引入了一种时间KNN聚类算法，可直接从原始激光雷达数据中获取运动一致的轨迹。这些轨迹通过跨模态运动一致性约束与视频帧对齐，无需手动标注或特定的无人机先验知识。
我们开发了一种自监督多模态学习架构，集成了运动感知建模、轨迹投影对齐和基于Vision-Mamba的检测。为模拟异步监督，我们引入了事件运动线索。
我们在真实世界数据集上评估了该框架，并证明其在各种传感条件下（包括低光照和具有挑战性的动态场景）均优于最先进的有监督和多模态基线方法。

A. 无人机检测与估计

无人机检测与姿态估计已在多种传感模态（包括激光雷达、视觉和多模态系统）中得到探索。若干以激光雷达为中心的方法展示了点云序列中时空一致性的效用。例如，Deng等人[29]通过累积连续激光雷达帧来识别动态无人机点，随后应用LSTM网络进行轨迹感知的中心回归，并通过卡尔曼滤波进一步细化。相比之下，Zheng等人[30]仅使用视觉输入解决无人机姿态估计问题，预测预定义的图像空间关键点，随后进行视觉特征提取以进行分类和6自由度跟踪。扩展到热成像模态，Lan等人[31]提出了一种基于无监督学习的RGB-T跟踪框架，说明了稀疏热融合在增强无人机定位方面的有效性。事件相机在无人机检测中的应用仍相对未被充分探索，但最近已成为一个有前景的研究方向[19],[29],[30]。然而，现有研究主要局限于短距离场景（通常在10米以内），限制了其在真实空中监视任务中的适用性。

Transformer架构的最新进展进一步提升了无人机跟踪性能，特别是在涉及小型或敏捷目标的挑战性场景中。Yu等人[32]提出的UTTracker在统一的Transformer框架内集成了局部跟踪、全局检测和背景抑制模块。该设计在杂乱和动态背景下显著提高了性能。类似地，Li等人[33]提出了AbaViTrack，一种单流视觉Transformer（ViT）模型，将模板-搜索耦合与自适应令牌过滤相结合，实现了计算效率和跟踪鲁棒性。

除了传统传感，音视频多模态网络已成为无人机轨迹估计的有前景的替代方案。Vora等人[28]利用了教师-学生范式，使用视觉网络生成伪真实标签以训练基于音频的回归器。Ding等人[34]进一步提出了一种两阶段框架，首先使用音频线索进行粗略定位，随后通过视觉细化以提高精度。这些研究突显了跨模态监督和互补传感器融合在增强估计方面的优势。

B. 空中目标轨迹预测

轨迹预测任务，特别是针对无人机的任务，因其在自主导航、空域管理和 anticipatory tracking 中的相关性而日益受到关注。已提出多种序列建模方法来解决无人机运动中固有的多模态和非线性动力学问题。

Becker等人[35]在基于四旋翼动力学和最优控制生成的合成无人机轨迹上训练了基于RNN的预测器，证明了其对真实世界空中路径的泛化能力。为了更好地捕捉空间异质性，Zhou等人[36]引入了一种具有退化自注意力的时空学习聚合器（STLA），在短期预测任务中优于传统的MLP和基于Transformer的架构。

为了解决未来运动预测中的多模态不确定性，Makansi等人[37]提出了一种由语义地图和自我运动规划引导的可达性优先框架。该方法能够生成更合理且语义一致的未来状态预测。Zhang等人[38]探索了使用ADS-B数据通过LSTM网络进行无人机轨迹建模，在大规模空中交通场景中实现了准确的中期预测。最近，Zhong等人[39]开发了一种4D轨迹预测方法，执行时空聚类并应用CNN-LSTM管道进行分段预测。与LSTM、GRU和速度外推基线相比，该方法在0--3s0\text{--}3\text{s}0--3s预测范围内表现出更高的精度。

三、方法 (PROPOSED METHODS)

在我们提出的方法中，流程分为两个主要部分：无监督稀疏点云提取和多模态检测融合。首先，我们采用基于聚类的评估方法从激光雷达数据中提取无人机轨迹，同时评估点云中来自不同激光雷达传感器的点。基于提取的轨迹，我们进行动力学分析以预测无人机的运动，生成符合无人机运动学约束的伪真实轨迹。随后，我们将激光雷达数据投影到图像上，并将其与RGB图像和事件相机数据集成。事件数据通过捕获连续图像帧之间的像素变化来计算。从无监督点云提取获得的伪真实标签用作训练的监督信号。此外，我们提出了一种基于Mamba框架的多模态跟踪与预测架构，该架构融合了RGB、事件和激光雷达模态，以准确跟踪和预测无人机运动。

A. 问题定义

令 PPP 表示在离散时间戳 ttt 采样的点集，P={pti∣i=1,2,⋯ ,Nt,t=1,2,⋯ ,T}P=\{p_t^i \mid i=1,2,\cdots,N_t, t=1,2,\cdots,T\}P={pti∣i=1,2,⋯,Nt,t=1,2,⋯,T}。令 ptip_t^ipti 表示第 ttt 帧中第 iii 个点的3D坐标。令 NtN_tNt 表示第 ttt 帧点云中的总点数。总帧数记为 TTT。

令状态向量 X3X_3X3 封装无人机在离散时间下的3D运动学状态，表示为：
X3=[t,V,α]T,X3∈R9(1)X_3=[t, V, \alpha]^T, \quad X_3 \in \mathbb{R}^9 \quad (1)X3=[t,V,α]T,X3∈R9(1)

其中 ttt 表示位置，VVV 表示速度，α\alphaα 表示世界坐标系中的加速度。

为将3D状态与2D图像空间关联，我们采用适用于鱼眼相机的统一投影模型。3D点 t=[x,y,z]Tt=[x,y,z]^Tt=[x,y,z]T 通过以下步骤投影到像素坐标 [u,v]T[u,v]^T[u,v]T：
x′=xz+ξx2+y2+z2,(2)x' = \frac{x}{z + \xi\sqrt{x^2+y^2+z^2}}, \quad (2)x′=z+ξx2+y2+z2 x,(2)
y′=yz+ξx2+y2+z2,(3)y' = \frac{y}{z + \xi\sqrt{x^2+y^2+z^2}}, \quad (3)y′=z+ξx2+y2+z2 y,(3)
r2=x′2+y′2,δr(r)=1+k1r2+k2r4,(4)r^2 = x'^2 + y'^2, \quad \delta_r(r) = 1 + k_1 r^2 + k_2 r^4, \quad (4)r2=x′2+y′2,δr(r)=1+k1r2+k2r4,(4)
x~=x′⋅δr(r),y~=y′⋅δr(r),(5)\tilde{x} = x' \cdot \delta_r(r), \quad \tilde{y} = y' \cdot \delta_r(r), \quad (5)x~=x′⋅δr(r),y~=y′⋅δr(r),(5)
u=fx⋅x~+cx,v=fy⋅y~+cy(6)u = f_x \cdot \tilde{x} + c_x, \quad v = f_y \cdot \tilde{y} + c_y \quad (6)u=fx⋅x~+cx,v=fy⋅y~+cy(6)

其中 k1k_1k1 和 k2k_2k2 是一阶和二阶径向畸变系数，ξ\xiξ 表示统一成像模型[31]的参数，用于解释投影中心沿光轴的偏移，δr(r)\delta_r(r)δr(r) 是径向畸变函数。

令 π3→2(⋅)\pi_{3\to2}(\cdot)π3→2(⋅) 表示投影算子，其在鱼眼畸变和内参变换下将3D位置映射到图像坐标。

为计算图像空间运动，我们使用链式法则对投影函数关于时间求导。分量 u˙\dot{u}u˙ 和 u¨\ddot{u}u¨ 表示由3D动力学预测的像素速度和加速度。图像平面速度计算为：
u˙=dπ3→2(t)dt⋅V=Jt⋅V(7)\dot{u} = \frac{d\pi_{3\to2}(t)}{dt} \cdot V = J_t \cdot V \quad (7)u˙=dtdπ3→2(t)⋅V=Jt⋅V(7)

其中 Jt∈R2×3J_t \in \mathbb{R}^{2\times3}Jt∈R2×3 是投影关于3D位置的雅可比矩阵。类似地，图像加速度为：
u¨=Jt⋅α+J˙t⋅V(8)\ddot{u} = J_t \cdot \alpha + \dot{J}_t \cdot V \quad (8)u¨=Jt⋅α+J˙t⋅V(8)

因此，完整的2D投影运动状态记为 X2X_2X2：
X2=[uu˙u¨]=[π3→2(t)Jt⋅VJt⋅α]∈R6.(9)X_2 = \begin{bmatrix} u \\ \dot{u} \\ \ddot{u} \end{bmatrix} = \begin{bmatrix} \pi_{3\to2}(t) \\ J_t \cdot V \\ J_t \cdot \alpha \end{bmatrix} \in \mathbb{R}^6. \quad (9)X2= uu˙u¨ = π3→2(t)Jt⋅VJt⋅α ∈R6.(9)

B. 时间KNN轨迹提取

原始无人机轨迹使用多种传感器获取，包括Livox Avia、Mid360激光雷达和毫米波雷达。为充分利用并提取这些传感器的信息，我们旨在融合Livox Avia、Mid360和雷达的数据。然而，直接融合具有挑战性，因为这些传感器之间存在时间戳差异，如图2所示。

简单的时间戳对齐方法会无意中放大传感器之间的时间间隔，导致后续运动学分析中无人机状态估计误差。此外，由于这些时间不匹配，将点云投影到图像上的错误也会越来越大。这些误差的累积效应显著降低了通过无监督方法导出的伪标签的稳定性。

为了解决这些问题，我们提出了一种受K近邻（KNN）启发的新型时间向量聚类方法，如图3所示。虽然传统KNN方法因输入维度一致而广泛应用于常规点云检测和分割网络，但我们的方法强调时间运动而非静态点云帧。具体而言，我们使用时间KNN方法连接连续帧中的点云，记录链接这些帧的向量的方向和大小。

尽管传感器时间戳可能显得杂乱无章，但运动中的物体保持时间一致性。利用这一物理特性，我们的方法有效缓解了不同传感器之间时间不匹配引起的误差。此外，对于运动物体，连接连续帧的向量与物体运动方向高度一致，而静止物体（如建筑物和树木）生成的向量则显得随机无序。因此，我们利用这种基于向量的策略来有效过滤点云。

具体而言，我们定义两点之间的空间距离函数为 d(pti,pt+Δtj)d(p_t^i, p_{t+\Delta t}^j)d(pti,pt+Δtj)。
d(pti,pt+Δtj)=∥pti−pt+Δtj∥2(10)d(p_t^i, p_{t+\Delta t}^j) = \|p_t^i - p_{t+\Delta t}^j\|_2 \quad (10)d(pti,pt+Δtj)=∥pti−pt+Δtj∥2(10)

在每个时间戳 ttt，我们通过为每个点 ptip_t^ipti 在后续帧 t+Δtt+\Delta tt+Δt 中找到 KKK 个最近点来构建时间 kkk 近邻（KNN）集，记为 KKK。
K(pti,K,Δt)={pt+Δtj∣使 d(pti,pt+Δtj) 最小的前 K 个点}(11)K(p_t^i, K, \Delta t) = \{p_{t+\Delta t}^j \mid \text{使 } d(p_t^i, p_{t+\Delta t}^j) \text{ 最小的前 } K \text{ 个点}\} \quad (11)K(pti,K,Δt)={pt+Δtj∣使 d(pti,pt+Δtj) 最小的前 K 个点}(11)

基于上述定义，我们构建时间向量集 VVV：
V={vijt,Δt∣vijt,Δt=pt+Δtj−pti, pt+Δtj∈K(pti,K,Δt)}(12)V = \{v_{ij}^{t,\Delta t} \mid v_{ij}^{t,\Delta t} = p_{t+\Delta t}^j - p_t^i, \ p_{t+\Delta t}^j \in K(p_t^i, K, \Delta t)\} \quad (12)V={vijt,Δt∣vijt,Δt=pt+Δtj−pti, pt+Δtj∈K(pti,K,Δt)}(12)

使用时间KNN，我们通过跨时间链接空间上接近的点来捕获连续帧之间的短期运动，形成运动点的局部时间表示。

给定点 pti∈Ptp_t^i \in P_tpti∈Pt，我们在未来帧 Pt+ΔtP_{t+\Delta t}Pt+Δt 和 Pt+Δt+1P_{t+\Delta t+1}Pt+Δt+1 中找到其 KKK 个最近邻。
v⃗ij(1)=pt+Δtj−pti,v⃗ij(2)=pt+Δt+1j−pti(13)\vec{v}{ij}^{(1)} = p{t+\Delta t}^j - p_t^i, \quad \vec{v}{ij}^{(2)} = p{t+\Delta t+1}^j - p_t^i \quad (13)v ij(1)=pt+Δtj−pti,v ij(2)=pt+Δt+1j−pti(13)

运动向量的时间梯度定义为 ∇v⃗\nabla \vec{v}∇v ：
∇v⃗ij=v⃗ij(2)−v⃗ij(1)Δt(14)\nabla \vec{v}{ij} = \frac{\vec{v}{ij}^{(2)} - \vec{v}_{ij}^{(1)}}{\Delta t} \quad (14)∇v ij=Δtv ij(2)−v ij(1)(14)

我们为每个点计算平均梯度幅值 gig_igi：
gi=1K∑j=1K∥∇v⃗ij∥=1K⋅Δt∑j=1K∥v⃗ij(2)−v⃗ij(1)∥(15)g_i = \frac{1}{K} \sum_{j=1}^K \|\nabla \vec{v}{ij}\| = \frac{1}{K \cdot \Delta t} \sum{j=1}^K \|\vec{v}{ij}^{(2)} - \vec{v}{ij}^{(1)}\| \quad (15)gi=K1∑j=1K∥∇v ij∥=K⋅Δt1∑j=1K∥v ij(2)−v ij(1)∥(15)

仅当 gi≤τg_i \leq \taugi≤τ 时才保留向量 v⃗ij(1)\vec{v}_{ij}^{(1)}v ij(1)，其中 τ\tauτ 是控制运动时间平滑性的阈值。

使用这种无监督方法，我们从激光雷达和雷达数据中直接提取带有运动向量的无人机轨迹，这些向量嵌入了运动信息。

C. 无监督轨迹投影对齐

提取无人机轨迹后，我们进一步使用一系列投影矩阵 PPP 将激光雷达数据投影到图像上。

大多数现有方法直接将点云投影到图像上。尽管我们使用校准投影矩阵 PPP 将3D点云映射到2D像素坐标，但由于校准矩阵的不准确和固有传感器误差（尤其是在投影激光雷达和雷达数据时），仍会出现错位。

这种错位在采用无监督方法时可能导致灾难性结果，因为初始轨迹提取误差在投影过程中会被显著放大。为避免这些问题，我们不是直接投影原始点云，而是首先投影上一节中获得的轨迹向量。

尽管点云数据和事件相机数据在模态上差异很大，但我们的无监督方法本质上捕获了类似于事件相机（检测连续图像帧之间像素级强度变化）的空间和运动特征。因此，我们将提取的轨迹向量 VVV 投影到事件线索图像数据上。

为投影运动向量，我们取时间KNN向量：
vijt,Δt=pt+Δtj−pti(16)v_{ij}^{t, \Delta t} = p_{t+\Delta t}^j - p_t^i \quad (16)vijt,Δt=pt+Δtj−pti(16)

直接使用投影矩阵投影3D向量可能因相机模型引入的非线性（尤其是透视投影）而导致几何畸变。因此，我们不是投影向量本身，而是首先将端点 pt+Δtjp_{t+\Delta t}^jpt+Δtj 和 ptip_t^ipti 投影到图像空间以获得相应的像素位置 ut+Δtju_{t+\Delta t}^jut+Δtj 和 utiu_t^iuti。然后我们将两个端点都投影到图像空间，并将2D运动向量定义为 v~ij\tilde{v}_{ij}v~ij。

此外，事件相机数据也需要类似处理。类似于点云向量，我们通过分析2D图像中像素强度的变化来计算像素级运动向量。我们使用ORB算法检测关键点并计算像素级向量。如图4所示，投影的激光雷达向量和事件线索向量在2D向量特征上表现出几何相似性。

为评估3D运动学预测与观测到的2D视觉运动之间的一致性，我们将基于ORB的密集关键点跟踪作为参考运动监督。我们定义在时间 ttt 从图像中提取的ORB关键点集为 OtO_tOt：
Ot={okt∣k=1,...,Mt},okt=[ukt,vkt]T∈R2(17)O_t = \{o_k^t \mid k=1,\dots,M_t\}, \quad o_k^t = [u_k^t, v_k^t]^T \in \mathbb{R}^2 \quad (17)Ot={okt∣k=1,...,Mt},okt=[ukt,vkt]T∈R2(17)

为基于视觉特征估计图像运动，我们提取ORB关键点并计算帧 ttt 和 t+Δtt+\Delta tt+Δt 之间的成对匹配，记为 Mt,ΔtM_{t,\Delta t}Mt,Δt：
Mt,Δt={(okt,ok′t+Δt)∣okt↔ok′t+Δt}(18)M_{t,\Delta t} = \{(o_k^t, o_{k'}^{t+\Delta t}) \mid o_k^t \leftrightarrow o_{k'}^{t+\Delta t}\} \quad (18)Mt,Δt={(okt,ok′t+Δt)∣okt↔ok′t+Δt}(18)

然后，对于每对匹配关键点，计算2D ORB流向量 wkk′t,Δtw_{kk'}^{t,\Delta t}wkk′t,Δt：
wkk′t,Δt=ok′t+Δt−okt(19)w_{kk'}^{t,\Delta t} = o_{k'}^{t+\Delta t} - o_k^t \quad (19)wkk′t,Δt=ok′t+Δt−okt(19)

尽管两组2D运动向量（从3D点云投影和从ORB特征提取）都捕获了帧间的局部运动，但它们表现出一定程度的噪声和不规则性。

为在来自3D时间结构的预测运动与来自图像空间特征的观测运动之间建立跨模态一致性，我们希望不仅比较运动方向，还比较位置和加速度一致性，将每个预测的 X2X_2X2 与最佳匹配的观测向量对齐。我们对由3D点轨迹和ORB关键点轨迹计算的完整2D投影运动状态 X2X_2X2 进行对齐。

ORB轨迹的图像空间运动状态定义为 X2ORBX_2^{\text{ORB}}X2ORB：
X2ORB=[oktwkk′t,Δt(ok′′t+2Δt−2ok′t+Δt+okt)/Δt2]∈R6(20)X_2^{\text{ORB}} = \begin{bmatrix} o_k^t \\ w_{kk'}^{t,\Delta t} \\ (o_{k''}^{t+2\Delta t} - 2o_{k'}^{t+\Delta t} + o_k^t)/\Delta t^2 \end{bmatrix} \in \mathbb{R}^6 \quad (20)X2ORB= oktwkk′t,Δt(ok′′t+2Δt−2ok′t+Δt+okt)/Δt2 ∈R6(20)

运动对齐损失随后被表述为最小全状态距离 LLL：
L=∑imin⁡j∥X2(i)−X2ORB,(j)∥22(21)L = \sum_i \min_j \|X_2^{(i)} - X_2^{\text{ORB},(j)}\|_2^2 \quad (21)L=∑iminj∥X2(i)−X2ORB,(j)∥22(21)

该公式强制执行预测和观测图像运动状态之间的一致性，捕获跨多个时间步和模态的轨迹动力学。

利用跨模态的运动一致性，我们对齐和校准这些向量，显著减少了无监督方法固有的特征错位。

如图5所示，我们比较了原始激光雷达轨迹点、真实激光雷达点、真实图像边界框以及通过激光雷达-图像对齐获得的匹配点的投影。该策略显著提高了使用无监督方法导出的投影点的准确性。

通过将模态间运动一致性转换为像素级向量一致性，我们生成了对齐的无监督标签数据，适用于后续的基于图像的训练。

D. 自监督学习框架

大多数现有方法仅限于基于2D图像的目标检测或单目6-DoF姿态估计，这对于实际的无人机检测场景是不够的。当使用广角或鱼眼相机时，这一问题尤为突出，因为在图像边界附近会发生严重畸变。因此，无人机在图像中的感知位置和大小会受到镜头畸变的显著影响，这直接损害了深度估计的准确性。因此，不同物理尺寸的无人机可能在图像中占据相同的区域并表现出相似的边界框尺寸，但在现实世界中却处于截然不同的高度。

在真实环境中估计无人机的3D姿态通常依赖于辅助深度传感器，这些传感器比标准相机昂贵且庞大得多。例如，典型的鱼眼相机成本约为100美元，而Mid-360和Livox Avia等商用激光雷达单元的价格分别约为769美元和2542美元。这种成本差异使得基于激光雷达的解决方案在大规模或移动部署场景中不切实际。

为克服这一限制，我们提出了一种在分层自监督框架内的多模态Mamba预测架构。该模型集成了RGB和事件模态，以在无需深度监督的情况下执行无人机检测和3D轨迹预测。如图6所示，所提出的框架在多个层次上逐步学习结构表示，减轻了无监督设置中由噪声伪标签引起的误差累积。

由于在开发期间无法获取同时具备高分辨率和宽视场的商用事件相机，我们采用了一种模拟事件生成策略，通过从RGB输入提取像素级强度变化来近似。虽然这是近似的，但这些模拟线索为监督提供了有效的运动边缘，如我们的消融研究所证实。关键在于，该设计提供了性能的保守下限：已知真实事件相机能产生更清晰、时间更精确的运动响应[27]，这表明我们的框架无需修改即可从真实事件输入中进一步受益。这使我们的系统面向未来，并在此类硬件广泛可用时准备好进行增强部署。

具体而言，我们的流程采用分阶段自监督训练，使用2D伪标签、几何对齐变换和投影3D监督。

该设计使模型能够从第C和D节获得的无监督数据中提取准确的结构表示。给定Vision-Mamba的输出（包括无人机类别、尺度和图像空间位置），我们首先应用变换将其与投影的激光雷达点对齐，然后通过基于2D足迹估计真实世界尺度和深度来推断无人机的3D位置。

第一阶段 ：我们使用从RGB图像导出的对齐2D伪标签对Vision-Mamba主干进行自监督训练。输入鱼眼图像 IcI_cIc 和事件相机帧 IeI_eIe 由Vision-Mamba主干联合处理以提取高级多模态视觉特征。

RGB图像和事件线索分别通过网络的单独分支处理，其特征通过交叉注意力层融合以增强时空表示。

为有效编码RGB和事件数据的互补模态，我们采用双分支补丁嵌入模块。RGB图像 Iimg∈RH×W×CI_{\text{img}} \in \mathbb{R}^{H \times W \times C}Iimg∈RH×W×C 和事件图像 Ievt∈RH×W×CI_{\text{evt}} \in \mathbb{R}^{H \times W \times C}Ievt∈RH×W×C 分别被处理为空间补丁并投影到共同的特征维度。

我们将结果补丁化令牌记为 Iimg,p,Ievt,p∈RJ×(P2⋅C)I_{\text{img},p}, I_{\text{evt},p} \in \mathbb{R}^{J \times (P^2 \cdot C)}Iimg,p,Ievt,p∈RJ×(P2⋅C)，其中 PPP 是补丁大小，J=HWP2J = \frac{HW}{P^2}J=P2HW 是补丁总数。
Iimg0=[Pclsimg;Iimg,pΛimg,p]+Eimgpos(22)I_{\text{img}}^0 = [P_{\text{cls}}^{\text{img}}; I_{\text{img},p} \Lambda_{\text{img},p}] + E_{\text{img}}^{\text{pos}} \quad (22)Iimg0=[Pclsimg;Iimg,pΛimg,p]+Eimgpos(22)
Ievt0=[Pclsevt;Ievt,pΛevt,p]+Eevtpos(23)I_{\text{evt}}^0 = [P_{\text{cls}}^{\text{evt}}; I_{\text{evt},p} \Lambda_{\text{evt},p}] + E_{\text{evt}}^{\text{pos}} \quad (23)Ievt0=[Pclsevt;Ievt,pΛevt,p]+Eevtpos(23)

其中 Λimg,p∈R(P2⋅C)×D\Lambda_{\text{img},p} \in \mathbb{R}^{(P^2 \cdot C) \times D}Λimg,p∈R(P2⋅C)×D 和 Λevt,p∈R(P2)×D\Lambda_{\text{evt},p} \in \mathbb{R}^{(P^2) \times D}Λevt,p∈R(P2)×D 是可学习的线性投影权重；Pcls⋅∈RDP_{\text{cls}}^{\cdot} \in \mathbb{R}^DPcls⋅∈RD 表示每种模态的可学习类别令牌；E⋅pos∈R(J+1)×DE_{\cdot}^{\text{pos}} \in \mathbb{R}^{(J+1) \times D}E⋅pos∈R(J+1)×D 是模态特定的位置嵌入。

每个模态特定的嵌入 I⋅0I_{\cdot}^0I⋅0 随后独立通过Vision-Mamba编码器，其中 LLL 是Mamba层的数量。
IimgL=Mambaimg(Iimg0),IevtL=Mambaevt(Ievt0)(24)I_{\text{img}}^L = \text{Mamba}{\text{img}}(I{\text{img}}^0), \quad I_{\text{evt}}^L = \text{Mamba}{\text{evt}}(I{\text{evt}}^0) \quad (24)IimgL=Mambaimg(Iimg0),IevtL=Mambaevt(Ievt0)(24)

从图像和事件分支获得单独的表示后，我们使用交叉注意力机制融合模态，随后使用轻量级融合块在流之间进行联合推理。

给定每个流的编码表示 IimgL∈RJ×DI_{\text{img}}^L \in \mathbb{R}^{J \times D}IimgL∈RJ×D 和 IevtL∈RJ×DI_{\text{evt}}^L \in \mathbb{R}^{J \times D}IevtL∈RJ×D，我们定义交叉注意力机制 AAA，该机制使用图像令牌作为查询，事件令牌作为键和值。
A=Softmax((IimgLWQ)(IevtLWK)⊤d)(25)A = \text{Softmax}\left(\frac{(I_{\text{img}}^L W_Q)(I_{\text{evt}}^L W_K)^\top}{\sqrt{d}}\right) \quad (25)A=Softmax(d (IimgLWQ)(IevtLWK)⊤)(25)
F=A⋅(IevtLWV)(26)F = A \cdot (I_{\text{evt}}^L W_V) \quad (26)F=A⋅(IevtLWV)(26)

其中 WQ,WK,WV∈RD×D′W_Q, W_K, W_V \in \mathbb{R}^{D \times D'}WQ,WK,WV∈RD×D′ 是注意力权重矩阵；F∈RJ×D′F \in \mathbb{R}^{J \times D'}F∈RJ×D′ 表示交叉注意力的融合输出。最终融合令牌通过拼接或相加两个分支并应用融合块获得，其中融合块是残差MLP块。
FusionBlock(x)=MLP(LayerNorm(x))+x(27)\text{FusionBlock}(x) = \text{MLP}(\text{LayerNorm}(x)) + x \quad (27)FusionBlock(x)=MLP(LayerNorm(x))+x(27)

在融合RGB和事件模态的双流表示后，融合令牌被传入Transformer解码器，遵循Detection Transformer（DETR）框架。

我们初始化固定数量的可学习对象查询：
Q={qm∈RD′∣m=1,...,M},Q∈RM×D′(28)Q = \{q_m \in \mathbb{R}^{D'} \mid m=1,\dots,M\}, \quad Q \in \mathbb{R}^{M \times D'} \quad (28)Q={qm∈RD′∣m=1,...,M},Q∈RM×D′(28)

这些对象查询通过每个解码器层中的交叉注意力关注融合令牌嵌入：
Z(l)=TransformerDecoder(l)(Z(l−1),Ffinal),Z(0)=Q(29)Z^{(l)} = \text{TransformerDecoder}^{(l)}(Z^{(l-1)}, F_{\text{final}}), \quad Z^{(0)} = Q \quad (29)Z(l)=TransformerDecoder(l)(Z(l−1),Ffinal),Z(0)=Q(29)

其中 Z(0)=QZ^{(0)} = QZ(0)=Q，解码器堆叠 LLL 层。最终解码器输出 Z(L)∈RM×D′Z^{(L)} \in \mathbb{R}^{M \times D'}Z(L)∈RM×D′ 传入两个并行前馈头用于分类 pmp_mpm 和边界框回归 b^m\hat{b}_mb^m，其中 pm∈RC+1p_m \in \mathbb{R}^{C+1}pm∈RC+1 表示类别logits，b^m∈[0,1]4\hat{b}m \in [0,1]^4b^m∈[0,1]4 是 (x,y,w,h)(x,y,w,h)(x,y,w,h) 格式的归一化边界框。
pm=MLPcls(zm),b^m=MLPbbox(zm)(30)p_m = \text{MLP}{\text{cls}}(z_m), \quad \hat{b}m = \text{MLP}{\text{bbox}}(z_m) \quad (30)pm=MLPcls(zm),b^m=MLPbbox(zm)(30)

在训练期间，在预测对象和真实对象之间应用二分匹配，总损失 LDETRL_{\text{DETR}}LDETR 是分类损失以及 L1L_1L1 和 GIoU 回归损失的和。
LDETR=Lcls+λ1LL1+λ2LGIoU(31)L_{\text{DETR}} = L_{\text{cls}} + \lambda_1 L_{L1} + \lambda_2 L_{\text{GIoU}} \quad (31)LDETR=Lcls+λ1LL1+λ2LGIoU(31)

我们框架中的几个加权因子控制不同损失分量之间的平衡。在DETR式检测损失中，系数 λ1\lambda_1λ1 和 λ2\lambda_2λ2 控制回归项的相对重要性：LL1L_{L1}LL1 鼓励精确的边界框定位，而 LGIoUL_{\text{GIoU}}LGIoU 强制执行形状和空间重叠一致性。这些权重允许网络联合优化空间精度和几何鲁棒性。单独地，对齐损失使用超参数 λ\lambdaλ 来平衡方向相似性（通过余弦损失）与全状态动态一致性（位置、速度和加速度）在投影激光雷达运动和基于ORB的图像线索之间的跨模态监督期间。所有三个系数均根据验证性能经验选择，我们观察到仔细调整这些值可提高收敛稳定性和最终轨迹精度。在未来的工作中，这些超参数可以使用强化学习[32]或基于梯度的超参数优化[33]进一步优化。

第二阶段 ：我们设计了一个前馈神经网络 f(2):R2→R2f^{(2)}: \mathbb{R}^2 \to \mathbb{R}^2f(2):R2→R2，将检测到的边界框 b^m\hat{b}mb^m 的中心 c=[xcenter,ycenter]c = [x{\text{center}}, y_{\text{center}}]c=[xcenter,ycenter] 映射到其对应的图像投影坐标 p=[xproj,yproj]p = [x_{\text{proj}}, y_{\text{proj}}]p=[xproj,yproj]。为促进此映射，我们首先缓冲Vision-Mamba主干对所有连续帧输出的令牌序列 In∈RJ×DI_n \in \mathbb{R}^{J \times D}In∈RJ×D。然后对这些序列进行时间聚合以恢复检测对象跨帧的运动状态。具体而言，我们计算2D运动学状态向量。同时，我们估计相应的投影运动学状态。该阶段使用来自 X2X_2X2 和 X2ORBX_2^{\text{ORB}}X2ORB 的伪标签进行训练。因此，网络学习近似投影行为，同时保持与观测到的2D时间动态的一致性。

该网络由两个隐藏层和ReLU激活组成，线性层记为 LLL，ReLU激活层记为 RRR：
f(2)(p,X~2)=L6(R(L128(R(L6(c,X~2ORB)))))(32)f^{(2)}(p, \tilde{X}2) = L_6(R(L{128}(R(L_6(c, \tilde{X}_2^{\text{ORB}}))))) \quad (32)f(2)(p,X~2)=L6(R(L128(R(L6(c,X~2ORB)))))(32)

在此阶段，仅训练 f(2)f^{(2)}f(2)，并使用均方误差（MSE）损失。

第三阶段 ：使用另一个前馈网络 f(3):R2→R3f^{(3)}: \mathbb{R}^2 \to \mathbb{R}^3f(3):R2→R3，该网络从阶段2获取图像投影坐标 ppp 和2D轨迹状态 X2X_2X2，以及阶段1的边界框宽度和高度 {b^m∣w,h}\{\hat{b}m \mid w, h\}{b^m∣w,h} 和无人机类别 pmp_mpm 作为输入，并预测相应的3D位置 x=[x,y,z]x=[x,y,z]x=[x,y,z] 和3D状态 X3X_3X3：
f(3)(x~,X~3)=L9(R(L64(R(L128(p,X~2,pm,w,h)))))(33)f^{(3)}(\tilde{x}, \tilde{X}3) = L_9(R(L{64}(R(L{128}(p, \tilde{X}_2, p_m, w, h))))) \quad (33)f(3)(x~,X~3)=L9(R(L64(R(L128(p,X~2,pm,w,h)))))(33)

该阶段基于融合的2D输入恢复3D轨迹，并由点云配准的伪真实3D位置监督。

E. 运动估计头

从检测到的边界框中心和相关特征回归目标无人机的3D位置后，我们引入一个简单的运动估计头来预测其未来轨迹。

该模块实现为一个小型前馈神经网络，将估计的当前状态和时间戳作为输入，并预测无人机在多个未来时间戳的位置。具体而言，输入包括当前3D位置 xt=[xt,yt,zt]x_t = [x_t, y_t, z_t]xt=[xt,yt,zt]、无人机2D和3D状态 X2,X2ORB,X3X_2, X_2^{\text{ORB}}, X_3X2,X2ORB,X3、对应时间 ttt 以及表示预测范围的归一化时间增量 Δt\Delta tΔt。输出预测位置 x^t+Δt\hat{x}_{t+\Delta t}x^t+Δt，其中 Δt=1s,2s,3s,5s\Delta t = 1\text{s}, 2\text{s}, 3\text{s}, 5\text{s}Δt=1s,2s,3s,5s。它使用预测位置与伪真实3D位置之间的标准均方误差（MSE）损失进行训练。

四、实验 (EXPERIMENTS)

A. 评估数据集

我们最初使用针孔RGB相机和DAVIS346事件传感器收集了一个小规模真实世界数据集（图8）。然而，窄视场（RGB为87∘×58∘87^\circ \times 58^\circ87∘×58∘，DAVIS346为71∘×56∘71^\circ \times 56^\circ71∘×56∘）和有限分辨率使其不适合广域无人机跟踪，通常导致检测不稳定和频繁的目标丢失。虽然更新的事件相机（如Prophesee GenX720）现在提供高分辨率（1280×7201280 \times 7201280×720）和超过180∘180^\circ180∘的超宽视场，但此类硬件在我们的开发周期中尚不可用。

为克服这些限制，我们采用了公开的MMAUD数据集[14]，它提供了丰富的多模态传感器和显著更广的场景覆盖。MMAUD包含1280×7201280 \times 7201280×720分辨率、210∘×160∘210^\circ \times 160^\circ210∘×160∘视场的高帧率鱼眼RGB视频，高度贴合现代宽视场事件相机的特性。虽然它不包含真实事件数据，但我们使用从RGB模态导出的模拟事件流来近似异步运动线索。该策略提供了一个保守的训练设置，确保与真实事件传感器兼容，由于其更清晰、时间更准确的运动信号，预计将进一步提升下游性能[27]。

据我们所知，MMAUD是唯一公开可用的反无人机数据集，结合了多种激光雷达、雷达、立体鱼眼RGB、模拟事件线索、同步音频以及基于Leica MS60的真实标签，涵盖不同的城市场地和无人机平台。这使其成为在嘈杂、动态和多模态条件下进行真实世界无人机感知和长时序轨迹预测的独特基准。

在本工作中，我们使用了MMAUD的V1和V2序列。V1子集特征为无人机在30米半径内飞行，已被先前文献[17],[18],[28],[34]--[39]广泛采用。相比之下，V2子集包括延伸至100米的大规模无人机轨迹。尽管V2在已发表作品中较少使用，但它出现在CVPR反无人机挑战赛2中，表现最佳的解决方案实现了约2米的平均3D定位误差。尽管难度增加，V2仍是在更广泛、无约束场景中评估长时序泛化和轨迹预测的宝贵测试平台。

该数据集还包含一系列真实世界传感挑战，如图9所示，包括：

激光雷达噪声：强烈阳光在激光雷达扫描中引入动态干扰图案，降低了点云可靠性。
音频噪声：空调和附近施工活动的持续背景噪声影响了声学信号的完整性。
视觉挑战：RGB图像包括小目标外观、镜面眩光、强逆光和夜间黑暗等极端情况。

B. 基线选择

为确保全面评估，我们选择了多样化的基线集合，包括仅视觉、仅音频和音视频融合管道，使用有监督或自监督方法进行训练。我们的基线选择优先考虑公开可用的代码、任务相关性和向3D轨迹预测的可扩展性。我们排除了具有以下一种或多种限制的方法：闭源、参数过多需大量调整、仅限于2D缺乏向3D扩展的能力。

对于最初仅限于2D检测的基线模型，我们集成了额外的3D估计头以启用完整的3D位置推断。对于已具备3D估计能力的模型，我们集成了共享线性外推模块[47]以支持未来轨迹预测。选择线性外推是因为其鲁棒性和最小参数调整，与更复杂的替代方案（如B样条[48]、MINCO[49]或高斯过程[50]）相比，后者通常存在过拟合和跨无人机序列性能不一致的问题。评估的基线包括：VisualNet、DarkNet、YOLOv8、YOLOv10、AudioNet、VorasNet、AAUTE、ASDNet、AV-PED、AV-FDTI（具体实现细节见原文Table II及正文说明）。

C. 评估指标

我们使用预测与真实无人机位置在多个时间范围内的均方根误差（RMSE）来评估我们的算法。该指标直接量化状态估计和未来预测的空间准确性。具体而言，我们报告每个轴的RMSE（Dx,Dy,DzD_x, D_y, D_zDx,Dy,Dz）以及聚合的欧几里得误差（E0s,E1s,E3s,E5sE_{0\text{s}}, E_{1\text{s}}, E_{3\text{s}}, E_{5\text{s}}E0s,E1s,E3s,E5s），遵循标准无人机评估协议。

为进一步了解模型在不同无人机动力学下的性能，我们将预测误差分析为无人机速度和加速度的函数。如图10所示，我们绘制了速度/加速度幅值与2D和3D设置中误差幅值的相关性。每个点代表一个无人机帧，按平台着色。

D. 结果与讨论

我们在四种无人机平台上进行了全面评估：DJI Mavic 2、Mavic 3、Phantom 4和M300。结果总结在表II中，涵盖了理想日间光照条件下的当前姿态估计和多步轨迹预测。

我们的方法始终 achieves competitive or superior performance 与有监督和无监督基线方法相比，同时仅依赖图像输入和伪标签进行训练。我们在5秒未来预测中实现了6.20m6.20\text{m}6.20m的RMSE，优于YOLOv8（7.71m7.71\text{m}7.71m）、AudioNet（16.41m16.41\text{m}16.41m）和AV-FDTI（6.29m6.29\text{m}6.29m），尽管不需要手动3D标注。这些结果突显了我们无标签学习流程的优势，该流程结合了3D时间结构与运动对齐的视觉监督（C1-C2）。

图7可视化了结合动力学感知预测约束的效果。顶行显示了未来时间步的误差增长；中间行比较了有/无约束建模的轨迹真实性。在没有运动监督的情况下，预测往往漂移或超调。相比之下，我们的约束预测在物理上更合理且时间上一致。底行量化了跨无人机类型的均值和方差改进。

此外，图10分析了预测误差如何随运动速度和加速度变化，支持了我们自监督标签在动态无人机行为下的鲁棒性。尽管使用从未同步且嘈杂的激光雷达数据导出的伪标签，我们的对齐机制（C2）和事件知情学习（C3）使模型即使在高速运动下也能保持低误差。

重要的是，这些结果是通过可扩展的单目RGB管道实现的，在测试时不依赖激光雷达。这使其高度可部署于实时反无人机场景，其中尺寸、成本和功率限制排除了3D传感器的使用。

总体而言，该框架为长时序无人机轨迹预测提供了一种实用且标签高效的解决方案，对空域防御、动能拦截以及城市或基础设施敏感环境中的监管无人机监测具有直接影响。

五、局限与未来方向 (LIMITATIONS AND FUTURE DIRECTIONS)

A. 失败案例与边缘条件限制

尽管我们的方法表现出强大的整体性能，但我们观察到在特定边缘条件下存在失败案例，如图11所示。值得注意的是，当无人机在极低高度飞行时（如靠近地面、树木后方或靠近公交车等大型车辆顶部），预测误差会增加，使其处于检测装置的盲区。当无人机在极远距离飞行时（例如超过100米），也会出现失败，此时它在图像中仅呈现为几个像素。在这两种情况下，视觉和运动线索变得不可靠，导致伪标签质量下降和下游预测准确性降低，因为可观测的动力学有限。

B. 未来方向

缺乏真实鱼眼事件数据 ：我们当前的框架通过从高FPS RGB图像（1280×7201280 \times 7201280×720）计算强度变化来模拟事件线索，因为在数据收集期间无法获取商用宽视场、高分辨率事件相机。虽然该模拟捕获了粗略的运动动力学并提供了有用的监督信号，但它无法反映基于事件传感的真实特性。真实事件相机提供精确的异步响应、高时间分辨率和卓越的动态范围------这些是模拟事件无法复制的。因此，我们当前的系统代表了保守的下限性能，并带有模拟事件带来的额外噪声。在实践中，用真实事件流替换模拟输入预计将显著提高运动保真度和预测准确性。未来的工作将侧重于在与MMAUD一致的条件下收集真实的宽视场事件数据，以增强模态真实性、减少标签噪声并提高泛化能力。
有限环境测试：评估仅在MMAUD数据集上进行，该数据集仅限于屋顶和停车场场景。尽管它包含多样的无人机平台和传感器配置，但缺乏对开阔地带、森林或农村地区的覆盖限制了泛化能力。一个关键的扩展是在多领域数据集上进行基准测试或在更多样化和具有挑战性的地形中进行真实世界实地测试。
启发式参数敏感性 ：我们框架中的多个组件依赖于经验选择的参数，例如KNN过滤中的时间梯度阈值 τ\tauτ、运动对齐损失中的加权因子以及事件线索模拟的时间窗口选择。虽然这些设置在MMAUD数据集上产生了鲁棒的结果，但我们没有进行系统的敏感性分析，且它们对新传感设置或环境的适应性尚未验证。未来的工作可以结合可微超参数优化或元学习[32]技术，以在未见领域中进行自适应调整。

六、结论 (CONCLUSION)

本文提出了一种无标签、自监督的框架，仅使用单目RGB和模拟事件线索进行3D无人机轨迹预测。所提出的流程引入了三个关键创新：（i）一种时间KNN算法，用于从原始、异步的激光雷达中提取运动一致的轨迹，无需手动标注；（ii）一种跨模态投影对齐机制，使用ORB和基于事件视觉的运动线索细化伪标签；（iii）一种基于Vision-Mamba的预测器，通过分阶段自监督训练，在多样的飞行条件下恢复长时序3D无人机轨迹。

在MMAUD数据集上的大量实验表明，我们的方法实现了最先进的预测性能，优于有监督图像、音频和基于融合的基线方法------无需依赖任何手动3D标签。该系统在无人机类型、光照条件和飞行动力学方面具有泛化能力，同时完全可在推理时实时部署，无需激光雷达或雷达。我们还识别并分析了低高度遮挡和极端距离跟踪下的关键失败案例，这为未来的鲁棒性增强指明了方向。

通过解决标签稀缺、传感器异步和有限深度感知的挑战，本工作为主动无人机拦截和空域监测提供了一种可扩展、经济高效的解决方案。未来的扩展将探索更广泛的环境部署、集成真实鱼眼事件传感器，以及通过强化学习或可微优化进行自适应参数调整。