基于边缘特征的相机图像-雷达点云多模态高精度配准

论文题目：EdgeRegNet: Edge Feature-based Multimodal Registration Network between Images and LiDAR Point Clouds

作者：Yuanchao Yue, Hui Yuan*, Qinglong Miao, Xiaolong Mao, Raouf Hamzaoui, Peter Eisert

刊物：IEEE Transactions on Multimedia

下载地址: https://arxiv.org/abs/2503.15284; https://ieeexplore.ieee.org/document/11175552

开源代码：https://github.com/yuanhui0325/EdgeRegNet

研究意义：LiDAR与相机的外参标定是多模态融合的基础。现有的深度学习配准方法往往依赖于对原始数据的体素化或下采样，这不可避免地造成了关键几何信息的丢失，限制了配准精度的上限。如何保留原始数据的精细特征，并有效跨越2D与3D的模态鸿沟，是提升配准性能的关键难点。

研究动机：(1)原始信息丢失：大多数现有方法（如VP2P-Match）为了计算效率对数据进行下采样，导致在高精度要求场景下表现不佳。(2)边缘特征利用不足：边缘特征在2D图像和3D点云间具有较好的几何一致性且对光照变化鲁棒，但目前鲜有研究能高效地将其用于全局跨模态匹配。(3)特征交互缺失：2D CNN特征与3D点云特征处于不同的特征空间，直接匹配效果差。

研究方法：提出了一种基于边缘特征的全局配准网络EdgeRegNet，旨在保留原始分辨率信息并实现高精度匹配。主要包括：

(1)基于边缘的关键点提取:

为了保留最大信息量，方法不进行下采样。图像：使用LSD(Line Segment Detector)算法提取图像线段上的像素作为边缘特征点。点云：结合深度不连续(Depth-discontinuous)和反射率不连续(Reflectance-discontinuous)特性提取3D边缘点。这种混合策略能更全面地捕捉场景轮廓。

KITTI数据集上各种边缘提取方法进行可视化

(a)使用Canny算子，阈值为(50, 150)的边缘提取得到63406个边缘像素。

(b)使用Sobel算子，阈值为(0, 150)的边缘提取得到61176个边缘像素。

(c)使用LSD算法的边缘提取得到20933个边缘像素。

(d) 将预处理后的点云投影到图像平面上，得到深度不连续点的可视化结果。

(2)基于注意力的特征交换(Attention-Based Feature Exchange)

引入图神经网络模块，通过多层自注意力（Self-Attention）和交叉注意力（Cross-Attention）机制，让2D图像边缘特征和3D点云边缘特征进行充分的信息交互。这一步骤有效地拉近了不同模态特征在潜在空间中的距离，解决了模态差异问题。

3)最优匹配与姿态求解(Optimal Matching)

利用最优传输(Optimal Transport)理论和Sinkhorn算法，计算2D和3D特征点之间的全局最优匹配矩阵，筛选出高置信度的对应点对。最后，利用EPnP算法结合RANSAC稳健地求解出相机的6自由度姿态(旋转和平移)。

实验结果：

在KITTI和nuScenes数据集上的测试表明，EdgeRegNet在保留原始数据信息方面具有显著优势。• 高精度：在KITTI数据集上，平移误差仅为0.54m，旋转误差1.65°，优于DeepI2P和VP2P-Match。• 轻量高效：相比同类模型，模型参数量小，且推理速度快。• 泛化性：在具有挑战性的场景（如光照变化、稀疏结构）下展现了更强的鲁棒性。