摘要
我们提出了Centra-Net,这是一个集中式网络,可以同时优化不同数据集域下的多个场景的视觉定位。Centra-Net通过将具有任务共享参数的多个模型合并到一个单一的内聚结构中来例示存储效率。在技术上,我们开发了一个具有两个并行分支的基本特征提取单元(basic feature extraction unit, BFEU):一个致力于局部特征提取,另一个擅长自适应地生成用于特征校准的特定于任务的注意掩模,从而增强了其跨不同场景的特征提取能力。在BFEU的基础上,引入了一种基于过滤器的共享机制(filter-wise sharing mechanism, (FSM),该机制自适应地确定单元内的参数共享,从而促进了细粒度的参数分配。密克罗尼西亚联邦的关键见解在于将单元的参数共享重新定义为一种可学习的范例,从而能够在培训后确定共享参数。最后,我们提出了一种复杂性优先的梯度算法(complexity-prioritized gradient algorithm,CPGA),该算法充分利用任务的复杂性,为不同的任务提供一个和谐的学习空间,从而保证所有任务的最优性能。通过对众多基准的严格实验,Centra-Net在显著减少参数占用的同时,展示了相对于现有最先进作品的显著优势。索引词-深度学习,任务复杂性,特征提取,视觉定位。
一、论文基础信息
- 标题:Centra-Net: A Centralized Network for Visual Localization Spanning Multiple Scenes
- 发表:IEEE TMM 2025,作者来自哈尔滨工业大学、江淮先进技术中心等
- 核心目标 :解决传统视觉定位单场景单模型 导致的参数量膨胀、多场景适配差、复杂场景性能弱的问题,实现多场景统一建模、高效参数共享、精准定位
二、研究背景与问题
1. 视觉定位主流方法
视觉定位用于从 RGB 图像预测 6-DoF 相机位姿,分为三类:
- 绝对位姿回归 (APR):端到端直接预测,效率高但精度低
- 相对位姿回归 (RPR):预测查询图与图库相对位姿,泛化性好但精度差、速度慢
- 场景坐标回归 (SCoRe):回归 3D 场景坐标 + PnP 求解位姿,精度最高,是本文核心基线
2. 现有方法缺陷
- 传统 SCoRe:场景专属,场景数增加则模型体积线性增长,部署受限
- 前沿方法 OFVL-MS:虽用多任务学习实现多场景共享,但存在三大问题:
- 仅用 ResNet 提取特征,无显式任务专属特征建模
- 参数共享仅层级别,无法细粒度分配,决策阈值固定、结果次优
- 多任务优化平等对待所有场景,复杂场景梯度被压制,性能受损
三、核心方法:Centra-Net 整体架构
Centra-Net 是多场景统一集中式网络 ,基于多任务学习,兼顾存储效率与定位精度,整体分为Backbone 和Regression Head两部分。
1. 基础特征提取单元 BFEU
- 结构 :双并行分支设计,替代传统 ResNet
- 特征提取分支:3×3 卷积 + BN+ReLU,提取跨场景通用局部特征
- 注意力分支 :平均池化 + 两层全连接 + Sigmoid,生成任务专属通道注意力掩码,自适应校准特征
- 优势:并行结构避免通用特征干扰,显式建模任务专属特征,提升多场景特征表达
2. 滤波器级共享机制 FSM
- 核心 :将参数共享从层级别 细化到通道 / 滤波器级别,实现细粒度分配
- 关键设计
- 定义分数向量 S,自适应判断卷积通道是否共享
- 动态阈值:基于分数均值 + 方差生成,替代固定阈值
- 指数移动平均 EMA:平滑更新分数,推理阶段更稳定
- 直通估计器:解决二值化函数不可导问题,保证梯度回传
- 效果:灵活分配共享 / 专属参数,提升模型效率与精度
3. 复杂度优先梯度算法 CPGA
- 核心 :根据任务复杂度动态平衡多任务梯度,优先优化复杂场景
- 计算逻辑
- 用损失下降速率衡量任务复杂度:简单任务损失下降快,复杂任务反之
- 动态调整任务损失权重,让复杂任务主导共享参数更新
- 优势:解决多任务梯度冲突,避免复杂场景性能被压制,全场景最优
4. 位姿估计流程
Backbone 提取特征→任务专属回归头输出 3D 场景坐标 + 不确定性→RANSAC-PnP算法求解 6-DoF 相机位姿
四、实验验证
1. 实验数据集
- 7-Scenes:7 个小型室内场景,含模糊、反光、重复结构等挑战
- LIVL:4 个场景,存在光照变化、稀疏纹理问题
- 12-Scenes:12 个室内场景,训练 / 测试轨迹相似
2. 评估指标
- 中位位置误差 / 旋转误差
- 定位精度(位置误差 < 5cm 且旋转误差 < 5° 的图像占比)
3. 实验结果
- 精度最优 :在三大数据集上均超越 SOTA(DSAC++、HSCNet++、OFVL-MS 系列),7-Scenes 精度达91.14%
- 模型轻量化 :7-Scenes 仅47.565MB,参数量远低于传统方法,与 OFVL-MS 相当但精度更高
- 推理快速 :单张图像推理仅53.2ms,快于 VSNet、DSAC++ 等方法
- 复杂场景突出:在 Parking-Lot、Pumpkin 等难场景提升显著
- 泛化性强:增量实验(12-Scenes 预训练→7-Scenes 微调)仍优于多数 SOTA
4. 消融实验
- BFEU:显式任务特征建模,精度显著提升
- FSM:通道级共享优于层共享,动态阈值 + EMA 效果最佳
- CPGA:复杂度加权优于普通梯度归一化,平衡多任务学习
五、核心创新点总结
- 集中式多场景架构:打破 "一场景一模型",用单一网络适配多异构场景
- BFEU 双分支单元:并行提取通用特征 + 任务专属注意力,强化特征表达
- FSM 细粒度共享:通道级参数分配,动态决策 + EMA 平滑,更高效稳定
- CPGA 复杂度梯度:优先优化复杂任务,解决多任务梯度冲突,全场景最优
六、结论与意义
Centra-Net 通过多任务学习 + 细粒度参数共享 + 复杂度感知优化 ,实现高精度、轻量、快推理、强泛化的多场景视觉定位,有效解决传统方法的存储与性能矛盾,为机器人、自动驾驶、SLAM 等场景的视觉定位提供高效解决方案。
一、前言
视觉定位是同时定位和映射领域的关键技术1,2,3,4,5,运动结构6,7,8,9,10,以及自主驾驶11,12,13,14,15,16,致力于在已知环境下从输入的RGB图像预测6-DOF(自由度)相机姿态。
随着深度学习的发展,基于学习的视觉定位工作主要分为三个主要部分:绝对姿势回归(APR)17,18,19,相对姿势回归(RPR)20,21,以及场景坐标回归(Score)22,23,24,25,26、27。
在给定输入RGB图像的情况下,APR技术使用端到端框架直接预测姿势。虽然它们在某些场景中是有效的,但它们在实现精确的视觉定位方面存在不足,因为它们基本上类似于通过图像检索来估计近似姿势28。RPR方法使用神经网络来建立查询图像与其最近的数据库对应物之间的相对姿势,提供了对新场景的适应性,但降低了定位精度20。此外,由于RPR方法费时费力,很难在实际的移动机器人平台上部署。SCORE方法通过训练良好的卷积神经网络(CNN)直接回归3D场景坐标,并辅之以PNP算法进行相机姿势检索,由于其高精度和紧凑的表示,在当代基于学习的定位研究中获得了突出的地位。虽然这些方法产生了令人印象深刻的结果,但它们具有固有的局限性。场景坐标回归本质上是特定于场景的,需要为遇到的每个新场景进行不同的训练。这一特性导致总模型大小与场景数量成正比的线性递增,从而潜在地影响网络在处理不同场景阵列时的可扩展性和效率。
最近,OFVL-MS29使用多任务学习(MTL)方法成功地解决了这一挑战。具体而言,OFVL-MS将单个场景的视觉定位视为一项独立的任务,然后使用MTL框架来同时定位多个场景,但有几个问题值得进一步探讨:
1)OFVL-MS简单地使用ResNet30作为特征提取器,而忽略了结合针对单个场景的显式特定任务特征建模。
2)OFVL-MS只允许不同的任务共享或独占同一层中的所有参数,从而限制了细粒度的权重分担。此外,OFVL-MS直接利用上一次训练迭代的得分来决定是否共享相应的权值,从而导致次优解。
3)OFVL-MS在对多个场景的视觉定位进行集体优化时,对每个场景一视同仁,忽略了较难场景的优先级,影响了较难场景的定位性能。