论文题目:EdgeRegNet: Edge Feature-based Multimodal Registration Network between Images and LiDAR Point Clouds
作者:Yuanchao Yue, Hui Yuan*, Qinglong Miao, Xiaolong Mao, Raouf Hamzaoui, Peter Eisert
刊物:IEEE Transactions on Multimedia
下载地址: https://arxiv.org/abs/2503.15284; https://ieeexplore.ieee.org/document/11175552
开源代码:https://github.com/yuanhui0325/EdgeRegNet
研究意义:LiDAR与相机的外参标定是多模态融合的基础。现有的深度学习配准方法往往依赖于对原始数据的体素化或下采样,这不可避免地造成了关键几何信息的丢失,限制了配准精度的上限。如何保留原始数据的精细特征,并有效跨越2D与3D的模态鸿沟,是提升配准性能的关键难点。
研究动机:(1)原始信息丢失:大多数现有方法(如VP2P-Match)为了计算效率对数据进行下采样,导致在高精度要求场景下表现不佳。(2)边缘特征利用不足:边缘特征在2D图像和3D点云间具有较好的几何一致性且对光照变化鲁棒,但目前鲜有研究能高效地将其用于全局跨模态匹配。(3)特征交互缺失:2D CNN特征与3D点云特征处于不同的特征空间,直接匹配效果差。
研究方法:提出了一种基于边缘特征的全局配准网络EdgeRegNet,旨在保留原始分辨率信息并实现高精度匹配。主要包括:
(1)基于边缘的关键点提取:
为了保留最大信息量,方法不进行下采样。图像:使用LSD(Line Segment Detector)算法提取图像线段上的像素作为边缘特征点。点云:结合深度不连续(Depth-discontinuous)和反射率不连续(Reflectance-discontinuous)特性提取3D边缘点。这种混合策略能更全面地捕捉场景轮廓。

KITTI数据集上各种边缘提取方法进行可视化
(a)使用Canny算子,阈值为(50, 150)的边缘提取得到63406个边缘像素。
(b)使用Sobel算子,阈值为(0, 150)的边缘提取得到61176个边缘像素。
(c)使用LSD算法的边缘提取得到20933个边缘像素。
(d) 将预处理后的点云投影到图像平面上,得到深度不连续点的可视化结果。
(2)基于注意力的特征交换(Attention-Based Feature Exchange)
引入图神经网络模块,通过多层自注意力(Self-Attention)和交叉注意力(Cross-Attention)机制,让2D图像边缘特征和3D点云边缘特征进行充分的信息交互。这一步骤有效地拉近了不同模态特征在潜在空间中的距离,解决了模态差异问题。

3)最优匹配与姿态求解(Optimal Matching)
利用最优传输(Optimal Transport)理论和Sinkhorn算法,计算2D和3D特征点之间的全局最优匹配矩阵,筛选出高置信度的对应点对。最后,利用EPnP算法结合RANSAC稳健地求解出相机的6自由度姿态(旋转和平移)。

实验结果:
在KITTI和nuScenes数据集上的测试表明,EdgeRegNet在保留原始数据信息方面具有显著优势。• 高精度:在KITTI数据集上,平移误差仅为0.54m,旋转误差1.65°,优于DeepI2P和VP2P-Match。• 轻量高效:相比同类模型,模型参数量小,且推理速度快。• 泛化性:在具有挑战性的场景(如光照变化、稀疏结构)下展现了更强的鲁棒性。
