自动驾驶中的传感器技术82——Sensor Fusion(5)

点云级融合

车载点云级感知融合算法概览

1. 融合层次划分

层次 关键特点 典型实现
数据层融合(Early Fusion)‍ 直接在原始点云或图像像素上进行配准、投影,形成统一的输入(如点云‑图像混合体) 将图像特征映射到点云坐标系后统一送入 3D 检测网络
特征层融合(Feature‑Level Fusion)‍ 分别提取点云特征(PointNet、VoxelNet 等)和图像特征(CNN),在中间层通过拼接、注意力或 Transformer 融合 PointFusion、MV3D、BEVFusion 等均采用此思路
决策层融合(Late Fusion)‍ 各传感器独立完成检测后,对检测框进行概率级或几何级融合 传统多模态系统常用的 NMS 融合方式

点云级融合(Point-Level Fusion) 是"前融合(Early Fusion)"的一种深度形式,通常发生在目标检测之前。

它的核心思想是:与其让摄像头和激光雷达各自"猜"一遍再对答案,不如先把激光雷达的 3D 点云和摄像头的 2D 像素在原始数据层面结合起来,生成**"彩色点云"或"深度图像"**,然后再送入神经网络进行检测。

  1. 核心预处理:硬同步与投影

在进行算法融合前,必须完成极其精确的几何与时间对齐。

  • 投影矩阵 (Projection):

  • 利用联合标定外参,将 3D 点云 P(x,y,z)P(x,y,z) 投影到图像平面 p(u,v)p(u,v)。

  • 公式:p=K×[R∣T]×Pp=K×[R∣T]×P(K为相机内参,R/T为外参)。

  • 视锥过滤 (Frustum Filtering):

  • 只保留投影在相机视场(FOV)内的点云,剔除相机看不到的后方/侧方点云,减少计算量。

  1. 主要的融合算法架构 A. 视锥点云融合 (Frustum PointNets) - 经典两阶段法
  • 步骤 1 (2D Proposal): 先用 CNN 在图像上画出 2D 目标框。

  • 步骤 2 (Frustum Extrusion): 将 2D 框沿视线向 3D 空间延伸,形成一个"视锥体(Frustum)",把落在里面的点云抠出来。

  • 步骤 3 (PointNet): 对抠出来的这点点云进行 3D 实例分割和边框回归。

  • 优势: 大大缩小了 3D 搜索范围,提高了小物体(如行人)的检测率。

B. 像素-点云对应融合 (PointPainting) - 工业界极常用 这是一个简单而极其有效的"给点云上色"的方法。

  • 步骤 1 (Segmentation): 对图像进行语义分割,判断每个像素是"车"、"路"还是"树"。

  • 步骤 2 (Painting): 将点云投影到分割后的图像上。

  • 步骤 3 (Append Features): 将图像的类别分数(Class Scores)作为附加特征,拼接到点云数据上。

  • 原始点云:(x,y,z,intensity)(x,y,z,intensity)

  • Painting后:(x,y,z,intensity,classcar,classpedestrian...)(x,y,z,intensity,classcar​,classpedestrian​...)

  • 步骤 4: 将"增强版点云"送入标准的 LiDAR 检测网络(如 PointPillars 或 CenterPoint)。

  • 效果: 激光雷达原本分不清什么是红绿灯,现在知道了;分不清是石头还是蹲着的人,现在知道了。

C. 特征级点云融合 (Feature-Level Fusion / Deep Fusion) 不直接拼接原始数据,而是在神经网络的中间层融合特征。

  • MV3D (Multi-View 3D Networks):

  • 将点云转化为 BEV(俯视图)和 FV(前视图)特征图,将图像通过 CNN 提取特征图。

  • 在网络的深层,通过 ROI Pooling 将对应位置的 LiDAR 特征和 Camera 特征进行拼接。

  • EPNet (Element-wise Point Fusion):

  • 逐点融合。对于每一个 LiDAR 点,找到对应的图像特征向量,用来增强该点的表达能力,最后做检测。

D. 虚拟点云生成 (Pseudo-LiDAR) - 纯视觉模拟点云

  • 步骤: 利用双目相机或单目深度估计网络(Depth Estimation),为图像中的每个像素生成深度值 (d)(d),从而反推 (x,y,z)(x,y,z) 坐标。

  • 融合: 将生成的"伪点云"与真实的 LiDAR 点云合并(Densification,稠密化),或者直接替代 LiDAR(用于低成本方案)。

  1. 多模态 Transformer 融合 (当前 SOTA) 随着 Transformer 的兴起,基于 Query-Key-Value 的注意力机制成为了点云融合的新宠。
  • TransFusion / DeepInteraction:

  • 不再需要严格的像素对齐(容忍一定的标定误差)。

  • Cross-Attention (交叉注意力): 让 LiDAR 的特征作为 Query,去图像特征(Key/Value)里"查询"相关的纹理信息。

  • 网络会自动学习哪些图像特征对当前的 3D 检测有用。

  1. 4D 雷达与摄像头的点云融合 毫米波雷达的点云非常稀疏且噪点多,融合逻辑略有不同。
  • Radar-Camera Association Network:

  • 由于雷达缺乏高度信息(3D 雷达),需要利用图像的纵向特征来约束雷达点的高度。

  • 利用图像的语义信息过滤雷达的杂波(Clutter),例如:图像显示那是草地,那么该处雷达的反射点大概率是噪声。

  1. IMU 在点云融合中的角色
  • 去畸变 (Deskewing):

  • LiDAR 扫描一圈需要 100ms。在这期间车在动。如果不处理,点云会"歪"。

  • 融合算法利用 IMU 的高频角速度和加速度,通过插值计算每一束激光发射时的精确车身位姿,将扭曲的点云"拉直"回同一时刻。

  1. GNSS/SLAM 在点云融合中的角色
  • 点云配准 (Registration / Scan Matching):

  • 利用 GNSS 提供的初值,将当前帧点云与高精地图 (HD Map) 的点云进行匹配(ICP / NDT 算法)。

  • 融合输出: 这不是为了检测障碍物,而是为了定位 (Localization) ------ 确定车在地图上的绝对位置。

总结:点云级融合的本质 点云级融合的核心在于**"互补"**:

  1. LiDAR 提供准确的几何骨架(在哪、多大)。

  2. Camera 提供丰富的语义皮肤(是什么颜色、是不是刹车灯)。

通过 PointPainting 或 Transformer 将两者结合,系统就能在夜间(视觉瞎)看清路,也能在远处(雷达稀疏)分清路牌。

2. 经典与主流算法

算法 融合方式 主要技术点 代表性成果
PointFusion(CVPR 2018) 特征层 PointNet 提取点云特征、CNN 提取图像特征,后接全连接融合网络 直接输出 3D 边界框
MV3D(CVPR 2017) 特征层 采用点云俯视图 + 前视图 + 图像特征,3D Proposal + Region‑based Fusion 在 KITTI 上取得领先性能
AVOD / SECOND / PointPillars 单模态(点云) 体素化 + 轻量化卷积,适配实时部署 为后续融合提供高效点云特征骨干
BEVFusion(地平线)‍ 特征层 + BEV 融合 将相机流和激光雷达流分别映射到 BEV,使用动态融合模块(attention → conv 替代)实现多任务感知 NDS ≈ 0.64,FPS ≈ 31,已在征程 6 上部署
MENet(武汉理工) 特征层 将高精地图几何特征与点云深度信息统一到时空基准,实现尺度对齐,提升卡车/公交车检测精度
Adaptive Feature Fusion (Cooperative Perception) 特征层 + 多车协同 Pillar‑Feature‑Network → 2D CNN → 融合网络 → SSD 检测,支持跨车点云共享
CPD‑KD(2025) 特征层 + 知识蒸馏 稀疏卷积 + 差异特征注意力,实现车‑路侧点云的高效融合,显著提升 DAIR‑V2X 上的检测精度
VRF (Vehicle‑Road‑side Fusion) 特征层 + 离线对齐 将车载点云与路侧点云对齐到统一 3D 地图,预测对齐误差以降低延迟,端到端延迟 < 20 ms
POINT CLUSTER(2025) 特征层 + 通信高效 通过紧凑的点云消息单元实现协同感知,兼容 VoxelNet、Mask R‑CNN 等检测器

3. 最新研究趋势(2023‑2025)

  1. BEV‑centric 融合:将所有传感器特征统一映射到俯视平面(BEV),便于多模态特征共享与后续任务(检测、分割、预测)统一处理。地平线的 BEVFusion 已在量产平台实现端到端 30 FPS。

  2. 差异特征注意力 & 知识蒸馏:CPD‑KD 通过注意力模块捕获车侧与路侧点云的差异信息,并利用知识蒸馏压缩模型体积,适配车载算力。

  3. 协同感知与通信效率:POINT CLUSTER 与 VRF 关注 V2X 场景下的点云压缩、对齐与低时延融合,推动车‑路协同感知向实际部署迈进。

  4. 多任务统一网络:BEVFusion 同时输出检测、占用预测(OCC)等多任务结果,提升感知系统的整体价值。

  5. 高精地图融合:MENet 将道路几何(车道曲率、路缘石)与点云深度统一,解决尺度不匹配问题,提升卡车等大目标检测鲁棒性。

4. 实际部署关键要点

环节 注意事项 常用技术
传感器标定 & 同步 必须保证时间戳对齐、外参精确;误差会导致特征错位 Kalman‑filter 同步、硬件时间戳、ICP 精细对齐
点云预处理 地面去除、体素化、下采样以控制计算量 VoxelGrid、Ground‑Segmentation、欧氏聚类
特征提取 轻量化稀疏卷积或 Pillar‑Net 兼顾精度与实时性 SECOND、PointPillars、SparseConvNet
融合策略 依据算力选取: ‑ 数据层 → 需要高精度标定 ‑ 特征层 → 更灵活、适配多任务 ‑ 决策层 → 可靠性高但延迟大 Attention‑Fusion、Conv‑Fusion、Transformer‑Fusion
模型压缩 & 加速 量产车端常采用 INT8 量化、网络剪枝、专用加速库 Horizon HENet 替代 attention、TensorRT 优化
验证与安全 必须在真实道路、仿真平台(CARLA、V2X‑Set)进行端到端评估,确保 NDS、mAP 达标 DAIR‑V2X、V2X‑Set 基准

小结:车载点云级感知融合已从最早的单模态点云检测,发展到多模态特征层融合、BEV‑centric 统一视图以及车‑路协同感知。当前主流方案在保证实时性的同时,借助注意力、Transformer、知识蒸馏等技术提升跨传感器特征互补性,并通过模型压缩与硬件加速实现量产部署。未来的研究重点仍将围绕 高效通信、跨车协同、以及更精准的地图‑点云融合 进行深入。

相关推荐
安达发公司2 小时前
安达发|赢在智造赛道:给新能源汽车,装上“自动排产软件”导航
大数据·人工智能·汽车·aps高级排程·aps排程软件·安达发aps·自动排产软件
自不量力的A同学2 小时前
阶跃星辰(StepFun)已于近期正式发布了开源图像生成模型 NextStep
人工智能·数据挖掘·回归
Kobebryant-Manba2 小时前
重启深度学习之路安装anaconda
人工智能·深度学习
易营宝2 小时前
运营海外社交媒体平台的KPI设置与预算分配模板
大数据·人工智能·媒体
Coovally AI模型快速验证2 小时前
开放词汇3D实例分割新思路:框引导+超点融合,精准检索罕见物体
人工智能·计算机视觉·3d·语言模型·机器人·无人机
拓端研究室2 小时前
2025机器人行业白皮书:人形机器人、工业机器人、具身智能、核心零部件|附200+份报告PDF、数据、可视化模板汇总下载
人工智能
破烂pan2 小时前
大语言模型在翻译领域的演进与游戏本地化应用分析
人工智能·游戏·语言模型
汤汤upup2 小时前
Nature 2025 TabPFN的使用与报错解决
人工智能·机器学习
zandy10112 小时前
从ChatBI到Agentic BI:HENGSHI SENSE 6.0如何用AI Agent重构企业决策智能
人工智能·重构·ai agent·chatbi·agentic bi