多传感器融合 | 概念、实现方法及展望

注:本文为 "多传感器融合" 相关合辑。

略作重排,如有内容异常,请看原文。


多传感器融合技术(基本概念、前融合和后融合的区别)

JK-Cool 原创于 2018-11-15 14:46:07 发布

多传感器信息融合(Multi-sensor Information Fusion, MSIF),是指利用计算机技术将来自多传感器或多源的信息与数据,在特定准则下予以自动分析与综合,进而完成所需决策与估计的信息处理过程。

1 多传感器融合的若干概念

硬件同步、硬同步:采用同一硬件同步发送触发采集指令,实现各传感器采集与测量操作的时间同步,达成不同传感器在同一时刻采集相同信息的效果。

软件同步:包含时间同步与空间同步两个组成部分。

时间同步、时间戳同步、软同步:借助统一主机为各个传感器提供基准时间,各传感器依据自身已完成校准的时间,为独立采集的数据添加时间戳信息。该方式可实现所有传感器的时间戳同步,但受限于各传感器独立的采集周期,无法保障不同传感器在同一时刻采集相同信息。

空间同步:将不同传感器坐标系下的测量值转换至同一坐标系的操作过程。其中,激光传感器处于高速移动状态时,需考虑当前速度条件下的帧内位移校准。

2 基本原理

多传感器信息融合技术的基本原理类比于人类大脑综合处理信息的过程,通过对各类传感器的信息开展多层次、多空间的互补与优化组合处理,最终形成对观测环境的一致性解释。在此过程中,需充分利用多源数据并进行合理支配与运用,信息融合的最终目标是基于各传感器获取的分离观测信息,通过对信息实施多级别、多方面的组合,推导得出更多可用信息。该技术既发挥了多个传感器协同操作的优势,又通过综合处理其他信息源的数据,提升整个传感器系统的智能化水平。

3 多传感器的前融合与后融合技术

图 1.2.2a 后融合算法典型结构

后融合算法

  1. 各传感器独立完成目标数据的生成处理。
  2. 每个传感器具备独立的感知能力,例如激光雷达执行激光雷达对应的感知操作,摄像头执行摄像头对应的感知操作,毫米波雷达同样执行专属的感知操作。
  3. 全部传感器完成目标数据生成后,由主处理器执行数据融合操作。

图 1.2.2a 前融合算法典型结构

前融合算法

  1. 采用单一感知算法,针对融合后的多维综合数据开展感知操作。
  2. 在原始数据层完成所有数据的融合,融合后的数据等效于一个超级传感器(Super sensor),该传感器兼具红外信息感知能力、摄像头 RGB 信息感知能力与激光雷达(LiDAR)三维信息感知能力,等效于一双超级感知眼睛。基于该超级感知体系开发感知算法,最终输出结果层的物体信息。

多传感器融合算法-后融合

小白要加油学习哇 于 2024-03-22 17:24:28 发布

自动驾驶系统通常由定位、环境感知和规划控制等模块组成,近年来主流的环境感知传感器包括摄像头激光雷达毫米波雷达、超声波雷达等。不同种类传感器由于其探测原理不同,所具备的优劣势也有所差异,且现阶段单一种类的传感器往往很难覆盖所有场景,为了使感知层获得的信息更为丰富、准确,通常需要将不同传感器的数据进行融合。

多传感器融合 (Multi-sensor Fusion, MSF)是指借助计算机和数据处理技术,将来自多传感器或者多源的数据以一定准则进行分析综合,增强整个传感器信息系统信息利用率的方法。根据数据融合方式的不同,主要可以分为前融合和后融合。前融合主要是指数据/特征层次的融合,优点在于数据利用更加充分;而后融合主要是指目标/结果层次的融合,优点在于处理相对简单,运行效率更高。

本文主要是对近期学习的感知-后融合模块进行简单介绍,仅做自学用途,如果存在不当之处,欢迎读者留言沟通。

本研究选取激光雷达(LiDAR)、相机(Camera)和毫米波雷达(Radar)三类传感器采集多模数据,利用算法对多传感器数据实施融合操作,输出更为稳定可靠的感知结果。

  • LiDAR:原始数据为三维空间点云数据,通过对其进行 3D 检测和分割,以及多目标跟踪,得到 3D 空间的目标元素;
  • Camera:原始数据为图像,通过对其进行 2D 的检测,得到 2D 空间的目标元素;
  • Radar:原始数据为稀疏的二维离散点云,但具备径向速度信息,通过对其进行数据处理,得到 2.5D 的目标元素。

1 后融合系统输入输出解析

后融合系统输入主要包括 LiDAR、Camera 和 Radar 的检测处理结果。

传感器类型 处理流程 输出结果形式
LiDAR 3D 检测任务: 输出为 LiDARObject 形式的列表:
3D 分割任务: 输出为点云或者 Polygons 形式数据:
Camera 2D 检测任务: 输出为 CameraObject 形式的列表:
2D 分割任务: 输出为带标签的同尺寸 Image 数据:
Radar 检测任务: 输出为 RadarObejct 形式的列表:

后融合系统输出主要是 3D 空间下完整的 boundingbox 目标及其语义信息。

2 后融合系统问题建模

融合系统旨在对不同模态的传感器数据进行综合处理,提高传感器系统的信息丰富度,输出更加稳定可靠的感知结果。

  1. 从上述后融合系统的输入输出角度来看,需要将多传感器获取的观测量与待估计的目标状态量进行融合,由此可以将问题转化为系统的状态估计问题。
  2. 不同传感器的数据采集频率和数据处理的耗时不同,使得各模态数据结果接入到后融合模块的时间通常也是存在差异的,由此也会导致时空对齐的问题。
  3. 通常传感器单帧数据中会存在多个目标,如何将不同传感器观测到的目标及单个传感器帧和帧之间的目标信息关联起来,由此也就涉及目标匹配问题。

3 后融合系统结构设计

针对上述多传感器后融合中涉及到的三个问题:多观测条件下的系统状态估计问题、时空对齐(预测)问题、目标匹配问题,开展多传感器后融合系统结构的设计与构建工作。

3.1 预测-时空问题

通常 LiDAR 的频率为 10 hz,Camera 为 30+ hz,Radar 为 20 hz。假设状态量是 100 ms 更新一次,则在两次状态量之间,状态量相对于新到来的观测量在时空维度上都是滞后的,因此需要时空对齐,保证状态量与观测量在融合时是一致的。由于要做的工作是时空对齐,因此只需要关注引起空间位置变换的状态量和观测量即可:

  • 位姿状态:如 yaw 和 yaw_rate;
  • 运动状态:如位置、速度和加速度。

对齐方法

对于不同频率的 LiDAR、Camera、Radar 检测结果,将其输入到预测模块中,根据自车的运动和目标的状态估计,进行时空对齐,使得融合时的状态量和观测量是位于同一时空下的。原则上下述两种方式均可以,但更推荐方式一,原因是 State 本身是基于多传感器数据的得到的状态量,精度上比各单传感器精度更高,预测误差也更小。

方式一 :将 t − 1 t-1 t−1 时刻的状态 S t a t e t − 1 State_{t-1} Statet−1 对齐到 t t t 时刻的各传感器观测量( M e a t L i D A R Mea^{LiDAR}{t} MeatLiDAR、 M e a t C a m e r a Mea^{Camera}{t} MeatCamera、 M e a t R a d a r Mea^{Radar}_{t} MeatRadar)处;

方式二 :将 t t t 时刻的各传感器观测量( M e a t L i D A R Mea^{LiDAR}{t} MeatLiDAR、 M e a t C a m e r a Mea^{Camera}{t} MeatCamera、 M e a t R a d a r Mea^{Radar}{t} MeatRadar)对齐到 t − 1 t-1 t−1 时刻的状态 S t a t e t − 1 State{t-1} Statet−1 处;

3.2 目标关联-匹配问题

不同传感器经处理后得到的目标维度也不尽相同,那么如何进行目标级对象的匹配呢?首先,需要明确的是,融合的目的是希望通过多传感器(LiDAR + Camera + Radar)的目标数据,得到不同时刻下同一目标的 3D bounding box 信息。当然,如果只有 Camera + Radar,则融合得到的可能是 2D 的 bounding box 及其对应的距离、速度信息,但最终的目的还是希望得到 3D 的 bounding box 信息。

3.2.1 目标级对象匹配算法---关联的度量

以 LiDAR + Camera + Radar 融合为例:三者融合之后得到的目标状态量通常为完整的 3D bounding box,估状态量与观测量之间的匹配度量可以表示如下:

  1. LiDAR 观测量 与 3D bounding box

通常 LiDAR 输入的观测量也会是 3D bounding box,因此两者之间的匹配可以通过计算两个目标 3D bounding box 之间的交并比 IoU(Intersection over Union) 来度量。

d = 3 D I o U ( b b o x 3 D , 1 , b b o x 3 D , 2 ) d = 3DIoU(bbox_{3D,1}, bbox_{3D,2}) d=3DIoU(bbox3D,1,bbox3D,2)

  1. Camera 观测量 与 3D bounding box

通常 Camera 输入的观测量是 2D bounding box,而状态量是 3D bounding box,因此需要先将 3D bounding box 投影到图像上以获取其 2D bounding box 信息,然后计算两个 2D bounding box 的 IoU 来度量。

d = 2 D I o U ( P r o j e c t ( b b o x 3 D , 1 ) , b b o x 2 D , 1 ) d = 2DIoU(Project(bbox_{3D,1}), bbox_{2D,1}) d=2DIoU(Project(bbox3D,1),bbox2D,1)

  1. Radar 观测量 与 3D bounding box

通常毫米波雷达输入的观测量没有尺寸和高度信息(这里暂不考虑 4D 毫米波雷达,仅以 L2 常用车载毫米波雷达为例),因此通常认为其检测到的目标点处于 3D bounding box 内部时,即认为满足匹配要求。

d = { ∣ x ′ − x ∣ < l e n g t h ∣ y ′ − y ∣ < w i d t h d=\begin{cases} |x' - x| < length \\ |y' - y| < width \end{cases} d={∣x′−x∣<length∣y′−y∣<width

3.2.2 目标级对象匹配算法---帧间匹配算法

通常每帧数据检测出的 Object 可能会有若干个,而为了实现不同模态检测结果的融合,势必涉及 Object 集合之间的匹配问题,即下图中红色点和绿色点的匹配。

一般而言,待匹配的目标是带有权重的(如单个红色与其他任意绿色点之间的权重可以通过前面提到的目标关联的度量值来表示),这样帧间的目标匹配工作就可以转化成两个带权重集合的匹配问题。假设有两个目标点集 f ( O ) t − 1 = { x 0 , x 1 , x 2 , x 3 , x 4 } f(O)_{t-1} = \{x_0,x_1,x_2,x_3,x_4\} f(O)t−1={x0,x1,x2,x3,x4} 和 f ( O ) t = { y 0 , y 1 , y 2 , y 3 , y 4 } f(O)_t = \{y_0, y_1, y_2,y_3,y_4\} f(O)t={y0,y1,y2,y3,y4} 需要进行匹配。对于目标 x 0 x_0 x0 而言,如果取最大权重的 y 4 y_4 y4 与之对应,则会出现一个目标匹配多个对象的情况,如下图所示。

对于这种带权二分图最优匹配问题,可以考虑使用 KM 算法(Kuhn-Munkres Algorithm),相关内容待补充。

3.3 状态估计问题

多传感器融合的数学本质为:在输入、输出和状态空间已知的条件下,获取系统状态最优估计。

经过前面的时空对齐和目标关联处理之后,已经可以拿到时空对齐后的 t − 1 t-1 t−1 时刻目标状态量、 t t t 时刻的目标观测量,以及状态量和观测量之间的目标匹配关系了。现在就需要在已知这些信息的基础上,对目标状态量进行更新,获取 t t t 时刻下目标状态的最优估计量。

首先需要进行融合信息的拆解,融合对象包括目标级的运动属性融合(位置、速度、角速度、加速度等)、语义级的对象融合(位置、属性)以及目标级其他属性融合(尺寸、类型等),各部分融合都可以单独看做状态估计问题。

3.3.1 状态估计问题的求解思路

假设系统 k k k 时刻的观测量为 z k z_k zk,状态量为 x k x_k xk,这两个变量是符合某种分布的随机变量,且两者不相互独立。目的是需要根据初始状态量和观测量,获取当前 k k k 时刻的状态量 P ( x k ∣ x 0 , z 1 : k ) P(x_k|x_0,z_{1:k}) P(xk∣x0,z1:k)。根据贝叶斯法则,将系统状态的概率求解拆分如下:

P ( x k ∣ x 0 , z 1 : k ) ∝ P ( z k ∣ x k ) P ( x k ∣ x 0 , z 1 : k − 1 ) P(x_k|x_0,z_{1:k}) \propto P(z_k|x_k)P(x_k|x_0,z_{1:k-1}) P(xk∣x0,z1:k)∝P(zk∣xk)P(xk∣x0,z1:k−1)

对于上述表达式,可以采取如下两类解法:

解法一 :假设系统满足马尔可夫性质,即 x k x_k xk 仅与 x k − 1 x_{k-1} xk−1 有关,与更早的状态无关;

基于上述假设,系统状态的概率求解,可进一步简化为:

P ( x k ∣ x 0 , z 1 : k ) ∝ P ( z k ∣ x k ) P ( x k ∣ x k − 1 ) P(x_k|x_0,z_{1:k}) \propto P(z_k|x_k)P(x_k|x_{k-1}) P(xk∣x0,z1:k)∝P(zk∣xk)P(xk∣xk−1)

其中:

  • P ( z k ∣ x k ) P(z_k|x_k) P(zk∣xk) 为似然项,可由观测方程给出。(似然项是指结果已知的情况下,该事件在不同条件下发生的可能性);

  • P ( x k ∣ x k − 1 ) P(x_k|x_{k-1}) P(xk∣xk−1) 为先验项,可通过状态转移方程得到。(先验项是指根据历史规律推测该事件发生的可能性)。

    这类问题可用滤波器相关算法解决,如卡尔曼滤波 KF/EKF。

解法二 :假设 k k k 时刻状态与之前时刻的状态相关;

基于上述假设,根据状态受历史状态影响的不同,又可以进一步分为两种:

  • k k k 时刻的状态与之前所有时刻相关:
    P ( x k ∣ x 0 , z 1 : k ) = P ( x 1 : k ∣ x 0 , z 1 : k ) P(x_k|x_0,z_{1:k}) = P(x_{1:k}|x_0,z_{1:k}) P(xk∣x0,z1:k)=P(x1:k∣x0,z1:k)
  • k k k 时刻的状态与前 s s s 个时刻相关:
    P ( x k ∣ x 0 , z 1 : k ) = P ( x k − s : k ∣ x 0 , z 1 : k ) P(x_k|x_0,z_{1:k})=P(x_{k-s:k}|x_0,z_{1:k}) P(xk∣x0,z1:k)=P(xk−s:k∣x0,z1:k)
    这类问题可用非线性优化方法来求解之前所有时刻的系统状态 x 1 : k x_{1:k} x1:k。
3.3.2 状态估计问题求解:卡尔曼滤波器

卡尔曼滤波是一种时域递推算法,能够根据上一时刻状态的估计值和当前时刻状态的观测值推测出当前时刻状态的最优值,是一种能排除随机干扰,提高测量精度的方法。

首先需要进行状态方程观测方程的构建,先明确几个变量的含义:

  • x k x_k xk --- 系统状态的真实值(通常无法得到);
  • x k ˉ \bar{x_k} xkˉ --- 系统状态的预测值(可以通过状态转移方程及上一时刻状态估计值 x k − 1 ^ \hat{x_{k-1}} xk−1^ 得到,也叫先验状态);
  • x k ^ \hat{x_k} xk^ --- 系统状态的估计值(可以通过预测量及观测量联合估计得到,也叫后验状态)。
状态方程的构建

假设 k k k 时刻系统的状态量为 x k x_k xk,包含位置和速度信息:
x k = [ p k v k ] x_k = \begin{bmatrix}p_k\\v_k\\ \end{bmatrix} xk=[pkvk]

同时引入协方差矩阵:
Σ k = [ Σ p p Σ p v Σ v p Σ v v ] \Sigma_k = \begin{bmatrix} \Sigma_{pp} & \Sigma_{pv}\\ \Sigma_{vp}& \Sigma_{vv}\\ \end{bmatrix} Σk=[ΣppΣvpΣpvΣvv]

来表示 x k x_k xk 各成员的不确定性和各维度之间的相关关系。

其中: Σ p p \Sigma_{pp} Σpp 和 Σ v v \Sigma_{vv} Σvv 为状态分量的方差, Σ p v \Sigma_{pv} Σpv 和 Σ v p \Sigma_{vp} Σvp 描述 p p p 和 v v v 之间的协方差。

在已知 k − 1 k-1 k−1 时刻状态量 x k − 1 x_{k-1} xk−1 情况下,预测 k k k 时刻的状态 x k x_k xk,也就是状态方程的构建。这里可以通过运动学模型来构建状态方程,假设系统短时间内满足匀速运动的条件,那么
x k ˉ = [ 1 Δ t 0 1 ] x ^ k − 1 = F k x ^ k − 1 \bar{x_k} = \begin{bmatrix} 1 & \Delta t\\ 0& 1\\ \end{bmatrix} \hat{x}{k-1} = F_k \hat{x}{k-1} xkˉ=[10Δt1]x^k−1=Fkx^k−1

其中:

  • x k ˉ \bar{x_k} xkˉ 为 k k k 时刻系统状态的先验分布
  • x ^ k − 1 \hat{x}_{k-1} x^k−1 为 k − 1 k-1 k−1 时刻系统状态的后验分布
  • F k F_k Fk 为状态转移矩阵

进一步,如果系统存在外部干预 u k u_k uk 以及考虑系统噪声 w k w_k wk 时,系统状态转换关系建模如下:
x k ˉ = F k x ^ k − 1 + B k u k + w k \bar{x_k} = F_k \hat{x}_{k-1} +B_ku_k +w_k xkˉ=Fkx^k−1+Bkuk+wk

其中:

  • u k u_k uk 表示外部输入

  • B k B_k Bk 表示外部输入与系统状态变化的转换关系矩阵

  • w k ∼ N ( 0 , Q k ) w_k\sim N(0, Q_k) wk∼N(0,Qk) --- 高斯噪声

同样的,基于误差协方差传播定律,预测得到的先验状态量的误差协方差可以表示为:

考虑过程噪声 w k w_k wk 的影响,先验状态量 x k ˉ \bar{x_k} xkˉ 的误差协方差 P k ˉ \bar{P_k} Pkˉ:
P k ˉ = F k P ^ k − 1 F k T + Q k \bar{P_k} = F_k\hat{P}_{k-1}F_k^T+Q_k Pkˉ=FkP^k−1FkT+Qk

观测方程的构建

假设通过一些传感器得到了系统 k k k 时刻的观测量 z k z_k zk,而观测量与状态量可能不是同一种表现形式下,需要通过线性变化 H H H 来转换得到。
z k = H k x k z_k=H_kx_k zk=Hkxk

进一步,传感器本身是存在观测误差的,考虑观测的高斯噪声 v k ∼ N ( 0 , R k ) v_k\sim N(0, R_k) vk∼N(0,Rk) 情况下,可以整理为:
z k = H k x k + v k z_k=H_kx_k+v_k zk=Hkxk+vk

即认为观测量 z k z_k zk 是 k k k 时刻的系统真实状态 x k x_k xk 经过线性变换 H H H,再加上高斯噪声得到的。

同样的,之前通过状态方程预测得到的 x k ˉ \bar{x_k} xkˉ 也可以经过线性变化转换到观测量 z k z_k zk 所在的维度。这样我们就拿到了两个表示 k k k 时刻系统的状态量(观测域下):先验状态 H k x k ˉ H_k\bar{x_k} Hkxkˉ 和观测量 z k z_k zk,现在就需要根据这两个带有噪声的状态量来对 k k k 时刻系统真正的状态量进行估计。

卡尔曼滤波原理的推导

常见的有两种方法,

一种是利用高斯乘积定理和贝叶斯公式推导,可以参考:

一种是基于方差最小准则进行推导,可以参考:

此处不再赘述。

卡尔曼滤波的工作过程

总的来说,卡尔曼滤波器的工作流程分为预测和更新两部分:

  • 预测:
    • 输入:过去的最优状态 ( x ^ k − 1 , P k ^ ) (\hat{x}_{k-1}, \hat{P_k}) (x^k−1,Pk^),外界对过程的影响 u k u_k uk,环境的不确定度 Q k Q_k Qk;
    • 输出:预测的当前时刻系统状态 ( x ˉ k , P k ˉ ) (\bar{x}_{k}, \bar{P_k}) (xˉk,Pkˉ);
    • 其他:对过程的描述转换 ( F k , B k ) (F_k,B_k) (Fk,Bk),与时间有关;
      x k ˉ = F k x ^ k − 1 + B k u k (1) \bar{x_k} = F_k \hat{x}{k-1} +B_ku_k \tag{1} xkˉ=Fkx^k−1+Bkuk(1)
      P k ˉ = F k P ^ k − 1 F k T + Q k (2) \bar{P_k} = F_k\hat{P}
      {k-1}F_k^T+Q_k \tag{2} Pkˉ=FkP^k−1FkT+Qk(2)
  • 更新:
    • 输入:预测的当前时刻系统状态 ( x ˉ k , P k ˉ ) (\bar{x}_{k}, \bar{P_k}) (xˉk,Pkˉ),观测值的状态 ( z k , R k ) (z_k,R_k) (zk,Rk),状态量到观测量维度的变换矩阵 H k H_k Hk;
    • 输出:经过观测值修正后的最优估计状态 ( x ^ k , P k ^ ) (\hat{x}_{k}, \hat{P_k}) (x^k,Pk^);
      K = P k ˉ H k T ( H k P k ˉ H k T + R k ) − 1 (3) K = \bar{P_k}H_k^T(H_k\bar{P_k}H_k^T+R_k)^{-1} \tag{3} K=PkˉHkT(HkPkˉHkT+Rk)−1(3)
      x k ^ = x k ˉ + K ( z k − H k x k ˉ ) (4) \hat{x_k} = \bar{x_k} + K(z_k-H_k\bar{x_k}) \tag{4} xk^=xkˉ+K(zk−Hkxkˉ)(4)
      P k ^ = P k ˉ − K H k P k ˉ = ( I − K H k ) P k ˉ (5) \hat{P_k} = \bar{P_k}-KH_k\bar{P_k}=(I-KH_k)\bar{P_k} \tag{5} Pk^=Pkˉ−KHkPkˉ=(I−KHk)Pkˉ(5)

补充:因卡尔曼滤波本身是基于线性马尔科夫性质进行求解的,当状态方程和观测方程不满足线性系统时,可以考虑使用扩展卡尔曼滤波。主要差别在于,需要将原有状态方程中的状态转移矩阵 F k F_k Fk 和观测方程中的测量矩阵 H k H_k Hk 进行线性转换才可以使用。通过泰勒公式一阶展开来对其进行局部线性化展开,进而实现线性系统的状态估计。展开过程可参考如下:

3.3.3 状态估计-目标级运动属性融合建模

运动方程

在自动驾驶系统中,通常假设对象满足匀加速/匀速旋转运动,状态转移方程(运动方程)如下:
x k = F k x k − 1 + B k u k + w k x_k = F_k x_{k-1} +B_ku_k +w_k xk=Fkxk−1+Bkuk+wk

其中, F k F_k Fk 为状态转移矩阵, u k u_k uk 为 k k k 时刻系统的输入量(通常为 0), w k ∼ N ( 0 , Q k ) w_k\sim N(0, Q_k) wk∼N(0,Qk),则可进一步简化为:
x k = F k x k − 1 + w k x_k = F_k x_{k-1} +w_k xk=Fkxk−1+wk

观测方程

在自动驾驶系统中,通常假设对象满足匀加速/匀速旋转运动,观测方程如下:
z k = H k x k + v k z_k=H_kx_k+v_k zk=Hkxk+vk

其中, H k H_k Hk 为观测矩阵, v k v_k vk 为观测噪声, v k ∼ N ( 0 , R k ) v_k\sim N(0, R_k) vk∼N(0,Rk)。

3.3.4 状态估计-语义级对象融合建模
3.3.5 状态估计-目标级其它属性融合
3.3.6 关于卡尔曼滤波建模中的噪声协方差
参考资料
  1. 多传感器融合系列之感知后融合_多传感器融合感知-CSDN 博客
  2. 自动驾驶感知------多传感器融合技术_汽车多传感器融合-CSDN 博客
  3. 多传感器融合感知-深蓝学院 - 专注人工智能与自动驾驶的学习平台
  4. (三十九)通俗易懂理解------卡尔曼滤波与扩展卡尔曼滤波

清华大学具身智能多传感器融合感知综述:背景、方法、挑战与展望

视觉语言导航 原创于 2025-07-27 16:22:54 发布

  • 作者:Shulan Ruan, Rongwei Wang, Xuchen Shen, Huijie Liu, Baihui Xiao, Jun Shi, Kun Zhang, Zhenya Huang, Yu Liu, Enhong Chen, You He
  • 单位:清华大学,中国科学技术大学,合肥工业大学
  • 论文标题:A Survey of Multi-sensor Fusion Perception for Embodied AI: Background, Methods, Challenges and Prospects
  • 论文链接:https://arxiv.org/pdf/2506.19769v1

主要贡献

  • 提供一份全面的多传感器融合感知(MSFP)研究综述,从任务无关角度对多模态、多智能体、时间序列以及 MM-LLM 融合方法展开系统性总结。
  • 对现有 MSFP 方法实施分类与分析,涵盖多模态融合(点级、体素级、区域级和多级融合)、多智能体融合、时间序列融合以及 MM-LLM 融合方法。
  • 探讨 MSFP 在数据层面、模型层面和应用层面面临的挑战,并提出未来潜在的研究方向。

I. 介绍

A. 具身智能的背景

  • 具身 AI 的定义:具身 AI 是一类以物理实体作为载体,借助实时感知能力在动态环境中实现自主决策与行动能力的智能形式,在自动驾驶、机器人集群智能等领域具有广泛应用。
  • 具身 AI 的价值:具身 AI 被视作突破 AI 发展瓶颈、实现人工通用智能(AGI)的可行路径之一。

B. 多传感器融合感知的地位

  • 传感器数据理解的意义:在具身 AI 系统中,传感器数据的理解是实现物理世界与数字智能交互的纽带。与传统以视觉为主的感知模式不同,具身智能体需要整合多模态传感器数据,以此实现对环境的全景感知。
  • 多传感器融合的必要性:不同类型的传感器(如视觉相机、毫米波雷达、激光雷达等)在不同环境条件下表现存在差异。例如,相机易受光照变化干扰,激光雷达在雨雾天气中性能会出现显著下降。因此,通过多传感器融合可实现更稳定的感知与精准的决策。

C. 当前研究的局限性

  • 现有综述的局限性

    • 多数现有综述聚焦于单一任务或研究领域(如 3D 目标检测或自动驾驶),导致其他相关任务的研究人员难以直接从中获取参考。
    • 多数综述仅从多模态融合角度介绍 MSFP,未纳入对其他融合方法(如多视图融合和时间序列融合)的考量。
  • 现有方法的局限性

    • 数据异构性:跨模态数据的异构性特征,导致特征空间的统一处理存在难度。
    • 时空异步性:不同传感器之间的时空异步现象,可能引发融合过程出现错误。
    • 传感器故障:传感器故障(如镜头污染和信号阻塞)可能造成多模态信息的动态丢失。

II. BACKGROUND 背景

A. 传感器数据

在 MSFP 体系中,不同类型的传感器数据是实现环境感知的基础。该论文详细介绍三种常见的传感器数据类型:相机数据、激光雷达(LiDAR)数据和毫米波雷达(mmWave Radar)数据。

相机数据
  • 特点:相机可捕捉物体包含颜色、形状和纹理在内的丰富外观特征,此类特征对多种感知任务的开展具有关键意义。
  • 局限性:作为被动传感器,相机对光照条件敏感,在夜间或恶劣天气(如雾、雨)环境下,图像质量会出现显著下降。
激光雷达(LiDAR)数据
  • 特点:激光雷达通过测量发射与接收激光信号的时间差计算物体距离,直接输出包含空间几何信息的高精度 3D 点云数据,在 3D 感知领域具备独特优势。
  • 局限性:激光雷达通常对天气条件敏感,同时受其固有稀疏性与非均匀性影响,对点云数据进行有效表示与理解仍属于待解决的挑战。
毫米波雷达(mmWave Radar)数据
  • 特点:毫米波雷达通过发射与接收无线电波实现物体检测,其生成的点云相比激光雷达点云更为稀疏,难以精准描述物体轮廓,但在恶劣天气下可保持良好性能,且能够直接测量物体速度。

B. 数据集

为支撑 MSFP 的研究与开发工作,多个基准数据集已被构建,这些数据集覆盖不同场景与传感器组合。

KITTI
  • 特点:包含 14,999 张图像及其对应点云数据,划分为训练集与测试集两类,数据覆盖城市、乡村和高速公路场景。
  • 注释:包含 8 个类别,按照简单、中等和困难三个级别划分。
nuScenes
  • 特点:数据集采集于波士顿与新加坡两地,包含 700 个训练场景、150 个验证场景和 150 个测试场景,每个场景持续时长约 20 秒,总计包含 40 个样本。
  • 注释:包含 140 万张相机图像、39 万次激光雷达扫描、140 万次雷达扫描和 140 万标注的边界框。
Waymo Open
  • 特点:包含感知与运动两类数据集,覆盖白天、夜间、黎明、黄昏和雨天等场景。
  • 注释:感知数据集包含 126 万 3D 边界框、118 万 2D 边界框、10 万张图像的全景分割标签等内容。
Cityscapes 3D
  • 特点:基于 Cityscapes 数据集构建,新增 3D 边界框注释,主要应用于城市街道场景下的 3D 场景理解任务。
Argoverse
  • 特点:包含 3D 跟踪数据集与运动预测数据集,覆盖 360 度视野范围,提供高分辨率地图。
A*3D
  • 特点:主要采集于新加坡城市道路,包含 39k 标注帧,覆盖多种天气条件与城市道路条件。
ApolloScape
  • 特点:包含 140k 张高分辨率图像,覆盖多个时间段与天气条件。
AIODrive
  • 特点:由卡内基梅隆大学研究团队开发,面向城市场景设计,包含多种传感器数据。
H3D
  • 特点:聚焦于城市环境下的 3D 目标检测与跟踪任务,包含约 160 个场景,总计约 27k 帧数据。

感知任务

目标检测
  • 任务描述:目标检测是感知系统的基础任务之一,其目标是通过传感器数据对各类物体实现精准定位与识别。
  • 输出 :在 2D 目标检测任务中,系统需输出物体的类别信息与 2D 边界框参数 ( x , y , w , h ) (x, y, w, h) (x,y,w,h);在 3D 目标检测任务中,检测结果需包含 3D 位置坐标 ( x , y , z ) (x, y, z) (x,y,z)、3D 尺寸参数 ( l , w , h ) (l, w, h) (l,w,h) 和目标方向角 θ \theta θ。
语义分割
  • 任务描述:语义分割任务的目标是对场景内每个基本单元(如图像像素)进行分类,将其归入对应的语义类别。
  • 输出:给定一组输入数据(如图像像素集合)与预定义的语义类别集合,分割模型需为每个基本单元分配对应的语义标签或类别概率分布。
深度估计
  • 任务描述:深度估计旨在从传感器数据中提取场景的深度信息,为具身智能体提供 3D 几何理解能力。
  • 输出:给定输入图像与对应的稀疏深度图,深度估计系统需通过深度补全过程输出密集深度图。
占用预测
  • 任务描述:占用预测可实现对 3D 空间的密集语义理解,通过将连续 3D 空间离散化为体素,占用感知模型能够预测每个体素的占用状态与语义类别。
  • 输出:为自主决策过程提供完整的场景表示。

III. 多模态融合方法

多模态融合方法通过整合不同传感器的数据,减少感知盲区,实现更全面的环境感知。例如,激光雷达可提供精准的深度信息,相机则能够保留更丰富的语义信息。如何更高效地融合这些多模态数据,进而实现更准确、更稳定的感知,已成为相关领域的研究热点。

A. 点级融合

点级融合方法的目标是在单个点维度实现激光雷达点云与图像数据的特征融合。通过整合点云的几何坐标信息与图像的语义细节(如颜色和类别属性),可提升多模态感知的准确性。

  • PointFusion:分别从 RGB 图像与点云中提取特征,随后将两类特征进行拼接以完成融合操作。
  • PointPainting:通过将激光雷达点投影至分割掩码的方式,利用图像特征对每个激光雷达点进行标注,以此实现融合。
  • MVP:将 2D 检测结果投影至虚拟 3D 点上,并将其与激光雷达数据合并,实现稀疏点云的增强。
  • DeepFusion:采用交叉注意力机制实现激光雷达与图像特征的动态对齐,并通过逆数据增强方法解决几何错位问题。

B. 体素级融合

体素级融合方法将不规则的激光雷达点云转换为规则网格(如体素或柱状结构),便于实现高效处理,同时保留点云的几何信息。

  • CenterFusion:将雷达点扩展为 3D 柱状结构,并建立雷达检测结果与图像对象的关联,以此解决高度信息不准确的问题。
  • PointAugmenting:通过为激光雷达点增强图像特征,并对增强后的点云进行体素化处理,提升感知能力。
  • VFF:引入点到射线的投影方法,沿射线方向融合图像特征,为遮挡物体与远距离物体的检测提供更丰富的上下文信息。
  • AutoAlign:引入可学习的多模态融合框架,实现图像与点云特征的动态对齐,无需依赖投影矩阵。

C. 区域级融合

区域级融合方法侧重于聚合来自 2D 图像与其他模态的区域特定信息,如特征图、感兴趣区域(ROI)或区域提议。此类方法在模态间空间对齐易于实现的场景中具有显著效果。

  • AVOD:引入多模态融合区域提议网络,分别处理鸟瞰图(BEV)与 RGB 图像,生成高分辨率特征图。
  • RoarNet:采用两阶段框架,第一阶段直接从图像中预测 3D 姿态,避免投影过程中的信息丢失;第二阶段利用点云推理对预测结果进行细化。
  • TransFusion:利用 Transformer 架构实现激光雷达 - 相机融合,通过建立激光雷达点与图像像素之间的软关联关系适配上下文信息,解决因图像质量较差或传感器校准错误导致的鲁棒性问题。

D. 多级融合

多级融合方法在不同层次整合多模态信息,以此实现更全面的感知。这类方法通常结合多阶段融合、注意力机制或对比学习等技术,提升感知的稳定性。

  • MVX-Net:执行点级与体素级的融合操作,结合多模态信息以提升感知性能。
  • EPNet:引入 LI-Fusion 模块,通过在不同尺度下融合图像与点云特征,减少无关信息的干扰,提升系统鲁棒性。
  • LoGoNet:结合全局与局部融合方法及动态特征聚合技术,提升复杂环境下的检测精度。
  • CSSA:采用轻量级通道切换与空间注意力机制,实现高效的特征融合。

IV. 多智能体融合方法

在复杂开放环境中,尤其是能见度受限或恶劣天气条件下,单个具身智能体的感知系统会面临诸多挑战。多智能体协作感知技术可通过整合多个智能体与基础设施的感知数据解决此类问题,这对于应对遮挡现象与传感器故障具有重要意义。本节将重点阐述智能体之间的多视图融合(Agent-to-Agent, A2A)协作感知方法。

A. 多智能体融合的动机

  • 单智能体的局限性:在复杂环境中,单个智能体的传感器可能因遮挡或恶劣天气出现失效情况,导致感知能力受限。
  • 多智能体的优势:通过多个智能体之间的协作,实现感知数据的共享,可提升感知的稳定性与准确性。

B. A2A 融合方法

多智能体融合方法聚焦于智能体之间的协作感知,通过共享与融合来自多个智能体的感知数据,提升整体感知能力。

CoBEVT
  • 方法描述:CoBEVT 是首个通用的多智能体多相机感知框架,通过稀疏 Transformer 生成鸟瞰图(BEV)分割预测结果。该框架引入轴向注意力模块,用于高效融合多智能体多视图相机特征,捕捉局部与全局空间交互关系。
  • 特点:能够处理多智能体之间的空间交互问题,提升感知结果的全局一致性。
CoCa3D
  • 方法描述:CoCa3D 提出一种创新的协作相机感知框架,仅配备相机的智能体可通过共享视觉信息解决深度预测偏差问题。通过共享相同点位的深度信息,CoCa3D 减少预测误差,改善深度模糊问题,并将检测能力拓展至遮挡区域与远距离区域。
  • 特点:特别适用于仅搭载相机的多智能体系统,可显著提升深度感知的准确性与稳定性。
V2VNet
  • 方法描述:V2VNet 引入基于图神经网络的框架,用于融合多个车辆的中间特征表示,通过图结构对智能体之间的关系进行建模,实现高效的特征融合。
  • 特点:适用于车辆之间的协作感知场景,能够处理复杂的交通场景。
MACP
  • 方法描述:MACP 探索如何利用预训练的单智能体模型实现协作感知,通过高效的模型适配方法,减少参数数量与通信成本。
  • 特点:在保持高性能的同时,显著降低计算与通信开销。
HM-ViT
  • 方法描述:HM-ViT 提出统一框架用于处理多模态 A2A 感知问题,能够融合来自不同类型传感器(如多视图图像与激光雷达点云)的特征,实现高效的多模态协作感知。
  • 特点:支持多种传感器数据的融合,提升感知的多样性与稳定性。
MRCNet
  • 方法描述:MRCNet 通过引入运动增强机制解决运动模糊问题,通过捕获运动上下文信息,减少运动模糊对目标检测的影响,从而在复杂场景中实现更优性能。
  • 特点:特别适用于处理运动模糊问题,提升动态场景下的感知能力。

C. 通信优化方法

When2Com
  • 方法描述:When2Com 提出一套用于学习通信组构建方式与通信时机选择的框架,通过握手机制与非对称消息大小设计,减少带宽占用,同时在语义分割与 3D 形状识别任务中取得良好性能。
  • 特点:通过动态调整通信策略,优化通信效率。
Who2Com
  • 方法描述:Who2Com 通过学习握手通信机制,提升语义分割任务的准确性,相比集中式方法使用更少的带宽资源。
  • 特点:通过优化通信机制,减少通信开销,提升协作效率。
How2Com
  • 方法描述:How2Com 提出基于信息论的通信机制与时空协作 Transformer,通过特征过滤、延迟补偿与时空融合等技术,提升协作感知的效率与稳定性。
  • 特点:在 3D 目标检测任务中表现优异,显著提升协作感知性能。
CodeFilling
  • 方法描述:CodeFilling 通过信息填充策略与码本压缩技术,优化协作消息的表示与选择方式,实现低通信成本的高效协作感知。
  • 特点:在保持高性能的同时,显著降低通信成本。

V. 时间序列融合

时间序列融合是多传感器融合感知(MSFP)系统的重要组成部分,通过整合多帧数据解决单帧感知的局限性,增强感知的连续性与时空一致性。时间序列融合方法特别适用于动态环境,例如自动驾驶中的车辆运动、行人行为预测等场景。

A. 时间序列融合的重要性

  • 单帧感知的局限性:单帧感知方法在处理动态环境时易受噪声、遮挡与传感器故障的影响,导致感知结果不准确。
  • 时间序列融合的优势:通过整合多帧数据,时间序列融合方法可利用时间维度的冗余信息,提升感知的稳定性与准确性,同时能够预测未来状态,增强系统的决策能力。

B. 基于查询的时间序列融合方法

近年来,随着 Transformer 架构在计算机视觉领域的发展,基于查询的时间序列融合方法逐渐成为主流。这类方法通过将感知特征编码为查询(queries),并与时空维度的键(keys)和值(values)进行交互,实现有效的特征对齐。该类方法可分为三类:密集查询(Dense Query)、稀疏查询(Sparse Query)和混合查询(Hybrid Query)。

密集查询方法
  • 特点:密集查询方法(Dense Query Methods)在高分辨率空间表示中,为每个查询点分配固定的栅格化空间位置,适用于需要高分辨率表示的任务,如语义分割。
  • 代表方法
    • BEVFormer:基于 DETR 与 Deformable DETR 架构,通过可变形注意力机制实现多相机视图间的自适应特征交互。BEVFormer 引入额外的编码器,基于密集的 BEV 查询生成密集 BEV 特征,支持语义分割任务。
    • BEVFormer v2:采用两阶段检测架构,结合视角检测与 BEV 检测方法,通过视角监督机制自适应学习 3D 场景表示,无需依赖昂贵的深度预训练数据。
    • BEVDet4D:基于 LSS(深度驱动的自底向上方法),将 3D 检测任务拓展至 4D 时间域,通过空间对齐与特征拼接操作,融合前一帧的 BEV 特征与当前帧特征。
    • BEVerse:作为统一的感知与预测框架,从多相机视频序列中生成 4D BEV 表示,通过共享特征提取与提升模块实现相关任务。
稀疏查询方法
  • 特点:稀疏查询方法(Sparse Query Methods)通过在稀疏时空表示中高效分配计算资源,特别适用于需要实时决策的任务。这类方法通过稀疏查询与多帧图像特征的交互,避免因建模密集 BEV 特征时间关系产生的计算负担。
  • 代表方法
    • StreamPETR:通过目标查询实现长期信息的系统性传播,避免在密集 BEV 特征中建模时间关系的计算负担。
    • Sparse4D:通过 4D 关键点采样与层次特征融合实现高效的时空特征提取。
    • Sparse4D v2:采用递归方法,利用稀疏实例进行时间信息传播,避免多帧采样以提升特征融合效率。
    • Sparse4D v3:进一步提出时间实例去噪与质量估计方法,加速模型收敛并提升性能。
    • MUTR3D:首个端到端的 3D 多目标跟踪框架,通过 3D 多目标跟踪将目标检测与下游任务(如路径规划和轨迹预测)连接,提出 3D 跟踪查询机制,用于建模跨帧目标的时空一致性。
    • PF-Track:采用"通过注意力跟踪"框架,利用目标查询在时间维度上一致表示跟踪实例。在长期遮挡场景下,通过未来推理模块维持目标位置信息,实现目标的重新关联。
混合查询方法
  • 特点:混合查询方法(Hybrid Query Methods)结合密集查询与稀疏查询的范式,在对象级任务中使用稀疏查询,在空间完整任务中保持密集表示,实现计算效率与全面场景理解的平衡。
  • 代表方法
    • UniAD:作为混合架构,将感知、预测与规划功能集成于统一框架。该架构使用稀疏对象查询实现高效的检测与跟踪,同时保持密集 BEV 特征用于轨迹预测与规划任务。
    • FusionAD:将混合方法拓展至多模态时间融合领域,通过基于 Transformer 的架构处理相机与激光雷达数据,根据任务需求在稀疏表示与密集表示之间自适应切换。
    • RCBEVdet:引入双流网络,为雷达流设计 RadarBEVNet 以提取点云 BEV 特征,为相机流配置图像主干网络与视图变换器,通过基于可变形 DETR 的跨注意力多层融合模块,实现高效的 4D 毫米波雷达 - 相机融合。

VI. 多模态大模型融合方法

A. MM-LLM 在 MSFP 中的作用

多模态大语言模型(MM-LLM)能够处理并融合来自不同来源的数据,例如文本、图像和传感器输出,极大丰富对复杂环境的理解能力。然而,将这类模型集成到具身 AI 的实际应用中仍面临挑战,尤其是在处理稀疏且不规则的传感器数据(如激光雷达和雷达点云)时。

B. 视觉-语言融合方法

视觉-语言融合方法通过结合视觉数据(如图像)与文本数据实现语义对齐。这类方法通常利用预训练 LLM 处理文本信息,并将其与视觉特征进行融合,完成图像描述、视觉问答等各类任务。

  • Sce2DriveX:提出通用的 LLM 框架用于从场景到驾驶的学习过程,通过视觉与语言的结合提升驾驶决策的准确性。
  • X-Driver:提出统一框架,利用多模态 LLM 进行链式推理与自回归建模,实现闭环自动驾驶的优异性能。
  • MpDrive:引入基于标记的提示学习框架,通过简洁的视觉标记表示空间坐标,构建双粒度视觉提示,提升需要高级空间理解能力的任务性能。
  • SafeAuto:提出知识增强的安全自动驾驶方法,通过多模态基础模型提升自动驾驶的安全性与可靠性。

C. 视觉-激光雷达-语言融合方法

视觉-激光雷达-语言融合方法通过结合视觉数据、激光雷达数据与文本数据实现 3D 空间理解。这类方法通常以图像作为中间媒介,实现激光雷达数据与文本数据的对齐,进而达成高效融合。

  • DriveMLM:提出基于时间的 QFormer 方法用于处理多视图图像,能够有效捕捉不同时刻与不同视角下的时空动态与空间关系。
  • MAPLM:将 3D 激光雷达点云数据投影至鸟瞰图(BEV)图像,通过视觉编码器提取特征。该方法将 3D 数据转换为 2D 表示,便于利用传统深度学习模型进行处理。
  • LiDAR-LLM:提出新型框架,将 3D 场景理解任务重新表述为语言建模任务,通过位置感知的 Transformer(PAT)与三阶段训练策略,弥合 3D 数据与语言模态之间的差距,在 3D 描述、定位与问答等任务中实现领先性能。

VII. 挑战和未来机遇

A. 数据层面

数据是 MSFP 系统的基础,但现有数据集与数据处理方法仍存在诸多挑战。

数据质量
  • 问题:现有数据集(如 KITTI、nuScenes、Waymo Open)存在长尾分布问题,即部分类别或场景的数据量远少于其他类别或场景,这限制模型对罕见但关键场景的泛化能力。此外,数据中可能存在缺失值、异常值、偏差和漂移等问题,且缺乏标准化的评估方法与公共数据集。
  • 解决方案
    • AIGC 技术:利用人工智能生成内容(AIGC)技术生成合成数据,填补真实数据集的空白,尤其是针对罕见或多样化场景。例如,通过光逼真渲染与扩散模型生成高质量合成数据。
    • 自动化错误检测工具:开发用于检测合成数据中错误的自动化工具,保障生成数据的质量。
    • 量化质量指标:引入量化质量指标,助力识别数据中的缺失值、异常值和数据漂移等问题。
数据增强
  • 问题:多模态数据增强需要在不同传感器模态之间保持同步,这带来独特的挑战。例如,在对激光雷达点云执行旋转或平移操作时,需要对对应的相机图像执行等效变换,以保持空间一致性。
  • 解决方案
    • 跨模态几何约束:利用跨模态几何约束确保增强过程中的空间一致性。例如,将激光雷达点云的变换与相机图像的齐次变换相结合。
    • AIGC 技术:利用扩散模型等 AIGC 技术生成逼真且同步的增强数据,模拟传感器噪声与环境变化,同时保障跨模态一致性。

B. 模型层面

模型设计与融合策略对提升 MSFP 系统性能具有关键意义,但现有方法仍存在局限性。

有效的融合策略
  • 问题:在多模态传感器数据的对齐与融合过程中,信息丢失是关键问题。传感器模态之间的物理配置、分辨率和视角差异可能导致对齐不准确,进而影响融合效果。此外,天气与光照条件的变化会加剧此类差异,增加精确同步的难度。
  • 解决方案
    • 多表示融合技术:结合体素网格、点云和 2D 投影等多种表示方法,保留空间与语义信息。
    • 上下文感知方法:利用时间一致性与自适应学习方法,动态响应环境变化,提升对齐精度。
    • 注意力机制:在融合过程中选择性地强调各类模态的关键特征,减少信息丢失。
    • 自监督和对比学习:通过自监督表示学习与对比学习捕捉并利用跨模态关系,为对齐过程提供更丰富的监督信息。
多模态 LLM 方法
  • 问题:将多模态 LLM 集成到具身 AI 实际应用中面临挑战,尤其是在处理稀疏且不规则的传感器数据(如激光雷达和雷达点云)时。此外,LLM 在多样化数据集上训练获得的外部知识,可能与具身 AI 的具体需求存在冲突。
  • 解决方案
    • 混合架构:结合几何学习技术(如图神经网络或基于点的学习模型)与多模态处理能力,开发混合架构以处理稀疏且不规则的传感器数据。
    • 动态适应机制:利用检索增强生成(RAG)等机制,动态适应多传感器数据提供的上下文,调整外部知识以满足具体需求。
    • 注意力机制:通过注意力机制强调相关特征,过滤无关或误导性内容,确保外部知识与具身 AI 系统的实时需求保持一致。

C. 应用层面

在实际应用中,MSFP 系统需要在复杂多变的环境中保持稳定性能,这带来诸多挑战。

现实世界适应性
  • 问题:现实世界的环境条件(如光照、天气和交通模式)处于动态变化中,MSFP 系统需要在这类变化中保持可靠性能。例如,从白天到夜晚或从晴天到雨天的突发变化,可能导致系统失效。
  • 解决方案
    • 自适应算法:开发能够实时响应环境变化的自适应算法,通过领域适应与在线学习技术,使模型能够适应新的数据分布,无需从头开始重新训练。
    • 零样本学习方法:探索零样本学习方法,使模型能够泛化至未见过的场景,处理新型环境条件,无需针对特定场景进行预先训练。
可解释性
  • 问题:在安全关键型应用中,MSFP 模型的可解释性至关重要。然而,理解各类传感器模态在不同条件下的贡献,以及不同模态之间的相互作用存在难度,尤其是在复杂的现实场景中。
  • 解决方案
    • 上下文感知解释方法:开发基于上下文的解释方法,根据环境条件与融合阶段阐明各类模态的作用。例如,通过注意力机制可视化工具,突出特定场景下贡献最大的传感器,提升决策过程的透明度。
    • 可解释融合网络:设计能够输出模态特定置信度分数的可解释融合网络,清晰呈现每个数据源对输出结果的影响,尤其是在关键或模糊场景中。

结论与未来工作

  • 结论

    • MSFP 在具身 AI 领域具有重要作用,通过整合多种传感器数据,可显著提升系统的感知能力与决策准确性。然而,MSFP 仍面临数据质量、模型融合策略、应用适应性等多方面的挑战。
  • 未来工作

    • 数据层面:开发高质量数据集,利用人工智能生成内容(AIGC)技术生成合成数据,填补真实数据集的空白。
    • 模型层面:开发更有效的融合策略,减少信息损失,并探索结合几何学习技术与 MM-LLM 的混合架构。
    • 应用层面:提升 MSFP 系统在现实世界中的适应性,开发自适应算法以应对环境变化,并增强模型的可解释性。

多传感器数据融合的实现

HLZ42576734 原创于 2025-02-14 11:18:56 发布

多传感器数据融合的实现需要系统化的流程和多种技术策略的结合,具体步骤如下:

1 数据采集与预处理

多传感器输入:从不同类型的传感器(如摄像头、LiDAR、温度传感器等)收集原始数据,确保覆盖多维信息。

数据标准化:通过归一化处理消除量纲差异,例如将振动、声学等信号统一到相同尺度。

异常值处理:去除噪声或无效数据,例如使用滤波算法或统计方法(如标准差分析)。

2 特征提取与数据对齐

特征提取:对每个传感器的数据提取关键特征,如信号频域特征(振动传感器)或图像中的边缘特征(摄像头)。

时空对齐:通过时间同步和空间注册(如自适应距离函数 ADF)确保不同传感器的数据在同一参考框架下。

例如,热成像数据需与 RGB 相机的点云空间配准。

3 融合策略选择

数据级融合:直接合并原始数据(早期融合),适用于传感器类型相似的情况。例如,将多个摄像头的图像拼接。

特征级融合:提取特征后进行整合。提到各传感器特征分别训练模型,再融合预测分数;(b) 则将所有特征合并后输入单一模型。

决策级融合:各传感器独立决策后合并结果。例如,©中每个传感器的决策通过投票或加权整合。

4 融合算法实现

加权融合:根据传感器可靠性分配权重。通过计算标准差动态调整权重,使用信息池化加权合并。

模型驱动融合:利用机器学习模型整合数据。例如,中的神经网络处理融合特征,结合 CNN 进行图像与文本数据融合。

分布式与集中式融合:分布式架构(如的局部滤波器+融合中心)适合大规模系统;集中式(如的中央节点)适合实时性要求高的场景。

5 结果优化与应用

鲁棒性增强:通过重叠区域融合或多模态验证(如热成像与激光雷达互补)提高精度。

可视化与决策支持:生成站点模型或 3D 点云地图,用于导航、障碍检测等任务。

例如,的系统输出障碍物距离和定位信息。

6 评估与反馈

性能测试:对比融合结果与地面实况数据,进行定性与定量分析(如的聚类地图验证)。

动态调整:根据环境变化(如雨雾条件)更新融合策略,例如中结合温度阈值调整感知模型。

典型应用场景

自动驾驶:融合 LiDAR、摄像头和 GPS 数据实现环境感知。

工业检测:振动与温度传感器融合诊断设备故障。

安防监控:热成像与 SWIR 数据结合检测移动目标。

综上,多传感器数据融合需综合考虑传感器特性、融合层次(数据/特征/决策)及算法选择,通过标准化、对齐、加权和模型整合提升系统性能,最终服务于高精度感知与智能决策。

参考文献

  1. PDFR. Collins, A. Lipton et al. "Algorithms for cooperative multisensor surveillance." Proc. IEEE(2001)... ROBERT T. COLLINS, ALAN J. LIPTON, HIRONOBU FUJI.
  2. PDFXiang Cheng, Haotian Zhang et al. "Intelligent Multi-Modal Sensing-Communication Integration: Synesthesia of Machines." IEEE Communications Surveys & Tutorials(2023)... Xiang Cheng, Haotian Zhang, Jianan Zhang, Shijian Gao, Sijiang Li, Ziwei Huang, Lu Bai, Zonghui Yang, Xinhu Zheng, Liuqing Yang.
  3. PDFS. Gawde, S. Patil et al. "Multi-Fault Diagnosis Of Industrial Rotating Machines Using Data-Driven Approach: A Review Of Two Decades Of Research." ArXiv(2022)... Shreyas Gawde, Shruti Patil, Satish Kumar, Pooja Kamat, Ketan Kotecha, Ajith Abraham.
  4. PDFJ. P. Queralta, Jussi Taipalmaa et al. "Collaborative Multi-Robot Systems for Search and Rescue: Coordination and Perception." ArXiv(2020)... Jorge Peña Queralta, Jussi Taipalmaa, Bilge Can Pullinen, Victor Kathan Sarker, Tuan Nguyen Gia, Hannu Tenhunen, Moncef Gabbouj, Jenni Raitoharju, Tomi Westerlund.
  5. PDFPanagiotis Tsinganos, A. Skodras. "On the Comparison of Wearable Sensor Data Fusion to a Single Sensor Machine Learning Technique in Fall Detection." Sensors (Basel, Switzerland)(2018).
  6. PDFAlexey Zhukov, Alain Rivero et al. "A Hybrid System for Defect Detection on Rail Lines through the Fusion of Object and Context Information." Sensors (Basel, Switzerland)(2024).
  7. PDFG. Psuj. "Utilization of Multisensor Data Fusion for Magnetic Nondestructive Evaluation of Defects in Steel Elements under Various Operation Strategies." Sensors (Basel, Switzerland)(2018).
  8. PDFP. Theodorou, K. Tsiligkos et al. "Multi-Sensor Data Fusion Solutions for Blind and Visually Impaired: Research and Commercial Navigation Applications for Indoor and Outdoor Spaces." Sensors (Basel, Switzerland)(2023).
  9. PDFJi Ding, Qiang Liu et al. "A Multisensor Data Fusion Method Based on Gaussian Process Model for Precision Measurement of Complex Surfaces." Sensors (Basel, Switzerland)(2020).
  10. PDFH. Ignatious, Hesham El-Sayed et al. "Multilevel Data and Decision Fusion Using Heterogeneous Sensory Data for Autonomous Vehicles." Remote. Sens.(2023).
  11. PDFJuan Liu, Yang Luo et al. "An Intelligent Online Drunk Driving Detection System Based on Multi-Sensor Fusion Technology." Sensors (Basel, Switzerland)(2022).
  12. PDFSabita Panicker, A. Gostar et al. "Recent Advances in Stochastic Sensor Control for Multi-Object Tracking." Sensors (Basel, Switzerland)(2019)... Sabita Panicke.
  13. PDFV. Vidal, L. Honório et al. "Sensors Fusion and Multidimensional Point Cloud Analysis for Electrical Power System Inspection." Sensors (Basel, Switzerland)(2020).
  14. PDFJ. Núñez, M. Araújo et al. "Real-Time Telemetry System for Monitoring Motion of Ships Based on Inertial Sensors." Sensors (Basel, Switzerland)(2017).
  15. PDFKasra Rafiezadeh Shahi, Pedram Ghamisi et al. "Data Fusion Using a Multi-Sensor Sparse-Based Clustering Algorithm." Remote. Sens.(2020)... Kasra Rafie.
  16. PDFZ. Kandylakis, Konstantinos Vasili et al. "Fusing Multimodal Video Data for Detecting Moving Objects/Targets in Challenging Indoor and Outdoor Scenes." Remote. Sens.(2019).
  17. PDFZhen-tao Hu, Tianxiang Chen et al. "Observable Degree Analysis for Multi-Sensor Fusion System." Sensors (Basel, Switzerland)(2018)... Zhentao Hu, Tianxiang C.
  18. PDFIdongesit Ekerete, Matias Garcia-Constantino et al. "Data Mining and Fusion Framework for In-Home Monitoring Applications." Sensors (Basel, Switzerland)(2023)... Idongesit Ekerete.
  19. PDFB. Hahn. "Research and Conceptual Design of Sensor Fusion for Object Detection in Dense Smoke Environments." Applied Sciences(2022).
  20. PDFDaniel Fernando Quintero Bernal, J. Kern et al. "A Multimodal Fusion System for Object Identification in Point Clouds with Density and Coverage Differences." Processes(2024).
  21. PDFZixing Lei, Zhenyang Ni et al. "Robust Collaborative Perception without External Localization and Clock Devices." ArXiv(2024)... Zixing Lei, Zhenyang Ni, Ruize Han, Shuo Tang, Dingju Wang, Chen Feng, Siheng Chen, Yanfeng Wang.
  22. PDFWenqiang Pu, Ya-Feng Liu et al. "Optimal Estimation of Sensor Biases for Asynchronous Multi-Sensor Registration." ArXiv(2017)... Wenqiang Pu, Ya-Feng Liu, Junkun Yan, Hongwei Liu, Zhi-Quan Luo.
  23. PDFJiang Dong, D. Zhuang et al. "Advances in Multi-Sensor Data Fusion: Algorithms and Applications." Sensors (Basel, Switzerland)(2009).
  24. PDFK. Choi, Changjae Kim. "A Framework of Wearable Sensor-System Development for Urban 3D Modeling." Applied Sciences(2022)... Kanghyeok Choi.
  25. PDFYaron Ukrainitz, M. Irani. "Aligning Sequences and Actions by Maximizing Space-Time Correlations." European Conference on Computer Vision(2006)... Yaron Ukrainitz and Michal Iran.
  26. 王耀南,李树涛.多传感器信息融合及其应用综述[J].控制与决策,2001.
  27. PDFYucheng Wang, Yuecong Xu et al. "SEnsor Alignment for Multivariate Time-Series Unsupervised Domain Adaptation." AAAI Conference on Artificial Intelligence(2023)... Yucheng Wang, Yuecong.
  28. PDFZhenbin Liu, Zengke Li et al. "LVI-Fusion: A Robust Lidar-Visual-Inertial SLAM Scheme." Remote. Sens.(2024)... Zhenbin Liu, Zengke Li.
  29. PDFJie Xue, Y. Leung et al. "A Bayesian Data Fusion Approach to Spatio-Temporal Fusion of Remotely Sensed Images." Remote. Sens.(2017).
  30. PDFChuiqing Zeng, D. King et al. "Fusion of Multispectral Imagery and Spectrometer Data in UAV Remote Sensing." Remote. Sens.(2017).
  31. PDFVolker Fritzsch, Stefan Scherer et al. "An Open Source Process Engine Framework for Realtime Pattern Recognition and Information Fusion Tasks." International Conference on Language Resources and Evaluation(2010).
  32. PDFAntonio A. Aguileta, R. Brena et al. "Multi-Sensor Fusion for Activity Recognition---A Survey." Sensors (Basel, Switzerland)(2019)... Antonio A. Aguileta, Ramon F. Bren.
  33. PDFA. Tsanousa, Evangelos Bektsis et al. "A Review of Multisensor Data Fusion Solutions in Smart Manufacturing: Systems and Trends." Sensors (Basel, Switzerland)(2022)... Athi.
  34. PDFXiyan Sun, Yaoyu Jiang et al. "Camera-Radar Fusion with Radar Channel Extension and Dual-CBAM-FPN for Object Detection." Sensors (Basel, Switzerland)(2024).
  35. PDFShahina Begum, Shaibal Barua et al. "Physiological Sensor Signals Classification for Healthcare Using Sensor Data Fusion and Case-Based Reasoning." Sensors (Basel, Switzerland)(2014)... MDPI.
  36. PDFV. Zaccaria, Moksadur Rahman et al. "A Review of Information Fusion Methods for Gas Turbine Diagnostics." Sustainability(2019)... Valentina Zaccaria, Moks.
  37. PDFErik Molino-Minero-Re, Antonio A. Aguileta et al. "Improved Accuracy in Predicting the Best Sensor Fusion Architecture for Multiple Domains." Sensors (Basel, Switzerland)(2021)... Eri.
  38. PDFXin Qian, Shujuan Wang et al. "Multi Channels Data Fusion Algorithm on Quantum Genetic Algorithm for Sealed Relays." Journal of Physics: Conference Series(2019).
  39. PDFBingbing Gao, Gaoge Hu et al. "Multi-Sensor Optimal Data Fusion Based on the Adaptive Fading Unscented Kalman Filter." Sensors (Basel, Switzerland)(2018).
  40. PDFMingwei Qiu, Bo Liu. "Multi-Sensor Adaptive Weighted Data Fusion Based on Biased Estimation." Sensors (Basel, Switzerland)(2024)... Mingwei Qiu.
  41. PDFZhuang Ye, Jianbo Yu. "Feature Extraction of Gearbox Vibration Signals Based on Multi-Channels Weighted Convolutional Neural Network." Journal of Mechanical Engineering(2021)... 机械工程学报.
  42. PDFHao Yin, Dongguang Li et al. "Adaptive Data Fusion Method of Multisensors Based on LSTM-GWFA Hybrid Model for Tracking Dynamic Targets." Sensors (Basel, Switzerland)(2022).
  43. PDFPei Shi, Guanghui Li et al. "Data Fusion Using Improved Support Degree Function in Aquaculture Wireless Sensor Networks." Sensors (Basel, Switzerland)(2018).
  44. PDFYi Mao, Yi Yang et al. "Research into a Multi-Variate Surveillance Data Fusion Processing Algorithm." Sensors (Basel, Switzerland)(2019)... Yi Mao, Yi Yang.
  45. PDFShixue Zhang, Houfeng Wang et al. "A Fusion Tracking Algorithm for Electro-Optical Theodolite Based on the Three-State Transition Model." Sensors (Basel, Switzerland)(2024).
  46. PDFJ. L. Patino, Michael Hubner et al. "Fusion of Heterogenous Sensor Data in Border Surveillance." Sensors (Basel, Switzerland)(2022)... Luis Patino, Michael Hubner.
  47. PDFHuaikun Gao, Xu Li et al. "A Fusion Strategy for Vehicle Positioning at Intersections Utilizing UWB and Onboard Sensors." Sensors (Basel, Switzerland)(2024).
  48. PDFC. Qi, W. Liu et al. "Frustum PointNets for 3D Object Detection from RGB-D Data." 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(2017).
  49. Yan Yan, Yuxing Mao et al. "SECOND: Sparsely Embedded Convolutional Detection." Sensors (Basel, Switzerland)(2018).
  50. Stefan Leutenegger, Simon Lynen et al. "Keyframe-based visual--inertial odometry using nonlinear optimization." The International Journal of Robotics Research(2015).
  51. Tixiao Shan, Brendan Englot. "LeGO-LOAM: Lightweight and Ground-Optimized Lidar Odometry and Mapping on Variable Terrain." 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)(2018).
  52. Anastasios I. Mourikis, S. Roumeliotis. "A Multi-State Constraint Kalman Filter for Vision-aided Inertial Navigation." Proceedings 2007 IEEE International Conference on Robotics and Automation(2007).
  53. PDFZijian Huang, Wenda Chu et al. "COMMIT: Certifying Robustness of Multi-Sensor Fusion Systems against Semantic Attacks." ArXiv(2024)... Zijian Huang, Wenda Chu, Linyi Li, Chejian Xu, Bo Li.
  54. PDFBo Shen, Zidong Wang et al. "Robust fusion filtering over multisensor systems with energy harvesting constraints." Autom.(2021)... Bo Shen.
  55. PDFHolger Caesar, Varun Bankiti et al. "nuScenes: A Multimodal Dataset for Autonomous Driving." 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)(2019).
  56. PDFDongha Chung, Jonghwi Kim et al. "Pohang canal dataset: A multimodal maritime dataset for autonomous navigation in restricted waters." The International Journal of Robotics Research(2023)... Dongha Chung, Jonghwi Kim, Changyu Lee, and Jinwhan Kim.
  57. PDFXiaozhi Chen, Huimin Ma et al. "Multi-view 3D Object Detection Network for Autonomous Driving." 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)(2016).
  58. PDFDe Jong Yeong, G. Velasco-Hernández et al. "Sensor and Sensor Fusion Technology in Autonomous Vehicles: A Review." Sensors (Basel, Switzerland)(2021).
  59. PDFYong Wang, Shuqian Du et al. "Autonomous Driving System Driven by Artificial Intelligence Perception Fusion." Academic Journal of Science and Technology(2024)... Academic Journal of Science and Technology.
  60. PDFYanqiu Xiao, Shiao Yin et al. "A Near-Field Area Object Detection Method for Intelligent Vehicles Based on Multi-Sensor Information Fusion." World Electric Vehicle Journal(2022).
  61. Zhangjing Wang, Yu Wu et al. "Multi-Sensor Fusion in Automated Driving: A Survey." IEEE Access(2020).
  62. PDFC.L. Yan. "Analysis of Research Progress of Automatic Driving." Highlights in Science, Engineering and Technology(2023)... Chuheng Yan, Warwick Business School, University.
  63. PDFA. Mohammed, A. Amamou et al. "The Perception System of Intelligent Ground Vehicles in All Weather Conditions: A Systematic Literature Review." Sensors (Basel, Switzerland)(2020).
  64. PDFMircea Paul Muresan, Ion Giosan et al. "Stabilization and Validation of 3D Object Position Using Multimodal Sensor Fusion and Semantic Segmentation." Sensors (Basel, Switzerland)(2020).

via:


相关推荐
江山如画,佳人北望5 个月前
多传感器融合
多传感器融合
紫雾凌寒10 个月前
计算机视觉应用|自动驾驶的感知革命:多传感器融合架构的技术演进与落地实践
人工智能·机器学习·计算机视觉·架构·自动驾驶·多传感器融合·waymo
Akaxi-12 年前
【自动驾驶系列丛书学习】2.《自动驾驶汽车环境感知》学习笔记
自动驾驶·多传感器融合·感知
hitrjj2 年前
【AI视野·今日Robot 机器人论文速览 第七十六期】Fri, 12 Jan 2024
人工智能·机器人·软体机器人·控制·多传感器融合·触觉·人工肌肉
GavinKing20102 年前
热释电矢量传感器设计
stm32·多传感器融合·传感器采集
脑壳二2 年前
多传感器分布式融合算法——加权最小二乘WLS融合/简单凸组合SCC融合
目标跟踪·多传感器融合·分布式融合·简单凸组合scc