51c视觉~3D~合集4

自己的原文哦~https://blog.51cto.com/whaosoft/14084543

#VGGT-Long

首次将单目3D重建推向公里级极限!南开、南大提出:分块、循环、对齐,开源

近年来,3D视觉基础模型(Foundation Models)在3D感知任务中展现了惊人的能力,但由于显存的限制,将这些强大的模型应用于大规模、长序列的RGB视频流3D重建仍然是一个巨大的挑战。今天,介绍一项来自南开大学和南京大学的最新研究成果《VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences》。该研究提出了一个名为VGGT-Long的系统,它简单而有效,首次将仅使用单目RGB视频的3D重建能力推向了公里级别的、无边界的室外环境。

研究背景与意义

3D场景重建是自动驾驶、机器人导航和增强现实等领域的关键技术。基于学习的,特别是基于基础模型的方法,如VGGT,在小规模场景中表现出色。然而,当面对长达数公里的视频序列时,这些模型往往会因为显存溢出(Out-of-Memory)而崩溃,或者因为误差的不断累积而产生严重的漂移,导致重建失败。

如下图所示,在处理大规模室外场景时,先前的方法(如CUT3R, Fast3R)存在严重的漂移问题,而其他基于基础模型的方法(如MASt3R-SLAM, VGGT)则无法完成整个长序列的处理。相比之下,本文提出的VGGT-Long能够成功完成公里级场景的重建,并保持了场景的准确性。

VGGT-Long的巧妙之处在于,它无需相机标定、无需深度监督、也无需重新训练基础模型,仅通过一套高效的后处理系统,就解决了现有模型的可扩展性瓶颈,实现了与传统SLAM方法相媲美的轨迹和重建性能。

VGGT-Long:核心方法

VGGT-Long系统的核心思想可以概括为其标题中的三个动词:分块(Chunk it)、循环(Loop it)、对齐(Align it)。

1. 分块处理 (Chunk it): 为了克服显存限制,VGGT-Long将长视频序列分割成多个有重叠的、固定长度的短视频块(chunks)。然后,它以滑动窗口的方式,将这些视频块依次送入预训练的VGGT模型进行处理,得到每个块的局部3D点图(pointmap)和相机轨迹。

2. 重叠对齐 (Align it): 得到一系列独立的局部重建结果后,需要将它们拼接成一个全局一致的场景。VGGT-Long利用相邻视频块之间的重叠部分进行对齐。值得一提的是,研究者提出了一种置信度感知对齐(Confidence-aware alignment)策略。VGGT模型会为每个预测的点生成一个置信度分数,该策略可以有效抑制场景中高速运动的物体(如车辆)对对齐过程的干扰,从而提高拼接的鲁棒性和准确性。

3.回环优化 (Loop it): 即使每个块都精确对齐,在长达公里的轨迹上,微小的误差也会不断累积,导致全局尺度的漂移(例如,起点和终点无法闭合)。为了解决这个问题,VGGT-Long引入了轻量级的回环闭合优化(Loop Closure Optimization)。当车辆回到先前经过的位置时,系统会检测到回环,并建立约束。然后通过全局LM(Levenberg-Marquardt)优化,一次性校正整个轨迹的累积误差,确保全局地图的一致性。

实验设计与结果

研究团队在自动驾驶领域极具挑战性的KITTI、Waymo和Virtual KITTI数据集上对VGGT-Long进行了全面评估。

在相机轨迹跟踪精度(ATE)方面,如下表所示,VGGT-Long在KITTI和Waymo数据集上均取得了与传统SLAM方法(如ORB-SLAM3)相当甚至更好的性能,并且显著优于其他基于学习的方法。许多方法在长序列上直接因显存溢出(OOM)或跟踪丢失(TL)而失败。

在3D重建质量方面,VGGT-Long同样表现出色。有趣的是,在Waymo数据集的评估中,研究者发现由于车载激光雷达(LiDAR)的扫描高度和范围有限,其采集的真值点云有时甚至不如视觉方法重建的场景完整(例如,无法感知到天桥的3D结构)。这表明VGGT-Long能够生成比某些真值数据更完整、更精确的几何结构。

在运行效率方面,VGGT-Long的所有组件几乎都能实现实时运行。特别是其轻量级的回环优化,仅需3次迭代即可收敛,达到毫秒级的性能,这对于实际应用至关重要。

消融实验也证明了系统中每个组件的必要性,特别是回环闭合,它显著减少了累积误差,是实现公里级精确重建的关键。

论文贡献与价值

  • 突破尺度限制: 提出VGGT-Long系统,成功将基于基础模型的单目3D重建扩展到公里级长序列,解决了现有方法的关键瓶颈。
  • 零成本扩展: 该方法无需任何模型重训练、相机标定或深度真值,即可直接应用于新的长视频序列,具有极强的泛化性和易用性。
  • 性能卓越且高效: 在多个大规模自动驾驶数据集上,实现了与传统方法相媲美的性能,同时保持了近乎实时的运行效率。
  • 推动实际应用: 该研究展示了利用基础模型进行可扩展、高精度单目3D场景重建的巨大潜力,尤其是在自动驾驶等真实世界场景中,为低成本、纯视觉的建图与定位方案铺平了道路。
  • 代码开源: 研究团队已将代码开源,将极大地推动社区在这一方向上的进一步发展。

总而言之,VGGT-Long是一项优雅而实用的工作,它没有去设计一个更庞大、更复杂的网络,而是通过一套巧妙的系统级设计,释放了现有3D基础模型的全部潜力,为大规模单目3D重建这一难题提供了令人信服的解决方案。

#HybridTM

鱼与熊掌亦可兼得,Transformer与Mamba混合模型登顶3D语义分割

在3D语义分割领域,Transformer以其强大的全局注意力机制(Attention)著称,能够有效捕捉长距离依赖关系,但其二次方计算复杂度在处理大规模点云时显得力不从心。而新兴的Mamba架构,凭借其线性复杂度的状态空间模型(SSM),在处理长序列数据时展现出极高的效率,但在3D特征提取的表示能力上有所欠缺。如何将二者的优势结合起来,一直是学界和业界探索的难题。

近日,来自华中科技大学和香港大学的研究者们提出了一种名为HybridTM的全新混合架构,首次将Transformer和Mamba的优势成功融合,应用于3D语义分割任务。该方法不仅在ScanNet、ScanNet200和nuScenes等多个权威基准测试中取得了SOTA(State-of-the-Art)的性能,还通过一种新的层内混合策略(Inner Layer Hybrid Strategy),实现了对长距离依赖和细粒度局部特征的同步捕获。

研究背景与意义

3D语义分割是理解3D场景的关键技术,在自动驾驶、机器人、增强现实等领域有着广泛的应用。其目标是为点云中的每一个点分配一个语义标签(如"建筑"、"车辆"、"行人"等)。

近年来,Transformer凭借其强大的全局建模能力,在3D语义分割任务中取得了显著的成功。然而,其核心的自注意力机制需要计算每个点与其他所有点之间的关系,导致计算量和内存消耗随着点云规模的增大而呈二次方增长,这极大地限制了其在动辄包含数百万个点的大规模场景中的应用。

为了解决这一问题,研究者们开始探索更高效的架构。Mamba作为一种新兴的序列建模方法,其线性复杂度使其在处理长序列时具有天然的优势。然而,直接将Mamba应用于3D点云时,其在捕捉局部几何结构和细粒度特征方面的能力又不如Transformer。

因此,如何设计一个能够兼具Transformer的强大表示能力和Mamba的高效计算能力的混合模型,成为了一个极具价值的研究方向。

核心方法:HybridTM

HybridTM的整体架构采用了经典的UNet结构,包含编码器、解码器以及跳跃连接,能够有效处理多尺度的特征。其核心创新在于编码器和解码器中使用的混合层(Hybrid Layer)。

HybridTM 整体架构图

层内混合策略(Inner Layer Hybrid Strategy)

与之前工作尝试在不同层级(inter-layer)或不同分支(parallel)上结合不同模型不同,HybridTM提出了一种更细粒度的层内混合(Inner Layer Hybrid)策略。在一个混合层内部,数据会依次经过注意力模块和Mamba模块,从而实现优势互补。

混合层(Hybrid Layer)结构图

一个混合层的具体流程如下:

  1. 条件位置编码(xCPE): 首先,通过一个条件位置编码层来增强体素(Voxel)的位置信息。
  2. 注意力模块(Attention Layer): 接着,将体素划分为多个小的分组(group),在每个分组内应用注意力机制。这样做的好处是,既可以利用注意力机制强大的局部特征提取能力,又可以通过分组操作将计算复杂度控制在可接受的范围内。
  3. Mamba模块(Mamba Layer): 在注意力模块处理完后,将体素恢复到原始尺寸,并重新划分为几个更大的分组。然后,在这些更大的分组上应用Mamba,利用其线性复杂度的优势来高效地捕捉长距离的全局上下文信息。
  4. 前馈网络(FFN): 最后,通过一个前馈网络来进一步融合和增强特征。

通过这种"先局部精雕(Attention),后全局总览(Mamba)"的策略,HybridTM成功地在一个统一的层内,以一种高效的方式同时捕获了细粒度的局部特征和长距离的全局依赖。

不同混合策略的对比,证明了层内混合(Inner Layer Hybrid)的优越性

实验结果与分析

研究者在多个大规模室内和室外3D点云数据集上对HybridTM进行了全面的评估。

HybridTM在室内外数据集上均超越现有基于Transformer、3D稀疏卷积和Mamba的方法

实验结果表明,HybridTM在所有测试的数据集上都取得了SOTA的性能,显著优于之前基于Transformer或Mamba的单一模型。

SCANNET验证集结果

HybridTM在ScanNet验证集上以77.8% mIoU刷新SOTA记录,较Point Transformer v3[14]提升0.3%,较Swin3D[11]和Serialized Point Mamba[26]分别提升2.3%和1.0%,展现了其在3D语义分割领域的突破性性能。

ScanNet200验证集结果

HybridTM在更复杂的ScanNet200验证集上以36.5% mIoU再创SOTA,较Point Transformer V3和OctFormer分别领先1.3%和3.9%。

nuScenes验证集结果

HybridTM在室外大规模数据集上以80.9% mIoU取得最优结果,较Point Transformer v3和SphereFormer分别提升0.7%和1.4%。

S3DIS验证集结果

HybridTM在小规模数据集上获得72.1% mIoU,较Serialized Point Mamba[26]提升1.5%,验证了其泛化能力。

消融实验也充分验证了混合层中每个组件的有效性。去掉注意力模块或Mamba模块都会导致性能下降,证明了二者结合的必要性和互补性。

混合层中各组件的有效性分析

定性可视化结果也直观地展示了HybridTM的优势。相比于基线模型,HybridTM能够生成更完整、更精确的语义分割结果,尤其是在处理一些细小的或者远距离的物体时,表现得更加出色。

与Point Transformer V3的可视化对比,HybridTM在细节和完整性上表现更优

论文贡献与价值

HybridTM的提出,为3D语义分割乃至更广泛的3D视觉领域带来了重要的贡献:

  1. **开创性的混合架构:**首次成功地将Transformer和Mamba在层内级别进行融合,为如何结合不同架构的优势提供了一个全新的、有效的范例。
  2. SOTA性能: 在多个具有挑战性的基准上刷新了记录,为3D语义分割任务树立了新的性能标杆。
  3. 高效与强大的平衡: 通过巧妙的设计,实现了计算效率和模型性能的完美平衡,使得处理大规模点云成为可能。
  4. **开源贡献:**研究团队承诺将开源代码,这将极大地促进社区对混合架构的研究,并为相关应用提供强大的工具。

总而言之,HybridTM不仅是一个性能卓越的3D语义分割模型,更重要的是,它展示了一条如何博采众长、融合不同AI模型优势的创新之路。

#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
相关推荐
倒悬于世3 小时前
开源的语音合成大模型-Cosyvoice使用介绍
人工智能·python·语音识别
pk_xz1234563 小时前
光电二极管探测器电流信号处理与指令输出系统
人工智能·深度学习·数学建模·数据挖掘·信号处理·超分辨率重建
蓝蜂物联网3 小时前
边缘计算网关赋能智慧农业:物联网边缘计算的创新应用与实践
人工智能·物联网·边缘计算
酌沧4 小时前
AI图像编辑能力评测的8大测评集
人工智能
tanak4 小时前
2025年7月23日 AI 今日头条
人工智能·microsoft
爷_4 小时前
字节跳动震撼开源Coze平台!手把手教你本地搭建AI智能体开发环境
前端·人工智能·后端
格林威5 小时前
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现持械检测(C#代码,UI界面版)
人工智能·深度学习·数码相机·yolo·计算机视觉
FIT2CLOUD飞致云5 小时前
七月月报丨MaxKB在企业环境中实现AI落地的具体场景盘点
人工智能·开源·deepseek
叫我:松哥5 小时前
基于网络爬虫的在线医疗咨询数据爬取与医疗服务分析系统,技术采用django+朴素贝叶斯算法+boostrap+echart可视化
人工智能·爬虫·python·算法·django·数据可视化·朴素贝叶斯
大咖分享课6 小时前
多租户系统中的安全隔离机制设计
人工智能·安全·安全隔离