GS论文阅读--AGS

前言

G i s h e l l o G^s_ihello Gishello
我是红色


文章目录


1.背景介绍

作者在文章中列出了详细的动机和想法:

挑战1:跟踪需要多次训练迭代才能收敛。

作者在论文的实验中表明:跟踪消耗83%的时间,产生的帧速率低于建图。出现此问题的原因是,跟踪通常需要200次训练迭代才能达到理想的精度,而建图仅需要30次。这就需要更快的收敛方法来减少跟踪所花费的训练迭代。

观察结果:帧共视性(FC)的变化会导致训练迭代次数过多。我们观察到,帧共视性的变化会导致对训练迭代次数减少的敏感度不同。具体而言,我们会逐渐减少具有高/低FC的帧的训练迭代次数。结果表明,具有低共视性的帧更敏感。这表明不需要花费在具有高共视性的帧上的大量训练迭代,从而为减少训练迭代留下了空间。

挑战二:对非贡献高斯函数的冗余计算工作量。

对于每次训练迭代,3DGS涉及大量高斯,其中许多对像素颜色没有贡献。在分配给一个高斯表的所有高斯函数中,85.1%的高斯函数对像素颜色没有影响,这促使我们寻求有效识别和跳过这些非贡献高斯函数计算的方法。

观察结果:跳过非贡献高斯的计算的机会。由于大部分高斯对像素颜色没有影响,一个可行的解决方案是在运行时以最小的开销识别并跳过那些非贡献高斯的计算。幸运的是,我们观察到高斯的贡献在具有高共视性的帧中是相似的。我们将FC分为五个级别,其中级别越高表示与前一帧的共视性越高。结果显示,在具有级别5 FC的帧中,来自帧的80%以上的非贡献高斯噪声被消除。前一帧在当前帧中保持非贡献。这为我们提供了在来自前一帧的信息的指导下预测和跳过非贡献高斯的计算的机会。

挑战三:跟踪和建图中的工作负载不平衡。

些像素在其他像素之前完成渲染,使负责这些像素的计算单元空闲,同时等待其余像素完成。此外,跳过预测的非贡献高斯会导致这些单元之间的不平衡工作负载,导致硬件资源的严重利用不足。

观察结果:分解渲染过程使得能够重新分配不平衡的工作负载。为了解决挑战3,一个可行的解决方案是将忙碌单元的工作负载分配给空闲单元。为了克服递归计算引起的数据依赖性,我们建议将每个高斯的渲染过程分解为两个阶段,我们观察到第一阶段的alpha计算是独立的这使得能够通过细粒度调度将其工作负载从忙碌单元重新分配到空闲单元,从而减轻不平衡的工作负载。

2.关键内容

2.1 运动自适应跟踪

对于跟踪,帧共视性反映了机器人在两个连续帧之间的运动幅度。对于每一帧,我们首先进行粗粒度的姿态估计,其采用基于神经网络的跟踪方法启发的轻量级算法来生成相机姿态的粗粒度估计,以及根据当前帧和前一帧之间的共同可见性来选择性地执行细粒度姿态细化。

对于具有高于预设阈值的共视性的帧𝑇𝑟𝑒𝑠𝑇,意味着机器人的位置和方向的微小变化,粗粒度姿态估计足以用于后续的建图任务。对于具有低于共视性的帧𝑇𝑟𝑒𝑠𝑇,可能涉及机器人的更多移动,我们使用𝐼𝑡𝑒𝑟𝑇3DGS的训练迭代作为细粒度细化来跟踪估计。注意,𝐼𝑡𝑒𝑟𝑇这比基线训练迭代少得多,从而最小化了整体收敛时间。粗粒度姿态估计建立在Droid-SLAM的基础上,它提供了比训练3DGS快得多的收敛速度。它首先通过卷积神经网络提取帧特征,然后利用GRU更新当前姿态,由于矩阵乘法和卷积运算的更简单的控制逻辑和高的计算吞吐量,与训练3DGS相比,其更硬件友好。

2.2 高斯贡献感知建图

对于建图,较高的帧共可见性意味着高斯贡献的相似性更高。因此,我们提出了高斯贡献感知建图,利用前一帧的高斯贡献信息作为预测,使我们能够识别和跳过当前帧的非贡献高斯的计算。

在此过程中,我们将所有帧分类为关键帧和非关键帧:对于关键帧,我们运行完整建图(图7中的C),执行基线3DGS算法来记录贡献信息。对于非关键帧,我们重复使用记录的信息来执行选择性建图(D),跳过非贡献高斯以加速。

剩下的问题是如何指定关键/非关键帧,以及如何评估高斯的贡献。

2.3 建图

2.4总体流程

AGS算法的关键见解是利用帧共可见性来加速跟踪和映射。作者提出了基于CODEC的帧共可见性检测、运动自适应跟踪和高斯贡献感知映射,以克服3DGS-SLAM的性能瓶颈,如下图所示,首先使用CODEC识别和量化帧共可见性。

在2.3中详述的ME算法期间,CODEC计算SAD值并使用最小SAD来识别跨连续帧的匹配MB。由于SAD值量化两个MB之间的差异,因此我们保存所有MB的最小SAD(𝑆𝐴𝐷𝑖𝑚𝑖𝑛)并通过累加来累加它们𝑖𝑆𝐴𝐷𝑖𝑚𝑖𝑛,其中较大的累加结果指示较小的帧共视性,反之亦然。随后,利用帧共视性来指示跟踪和映射两者执行运动自适应跟踪和高斯贡献感知建图。

3.文章贡献

  1. 在软件层面上,本文提出了运动自适应跟踪和高斯贡献感知建图,以加快跟踪和建图任务的基础上不同层次的帧共同可见性。
  2. 在硬件层面上,本文首先提出利用编解码器的中间结果作为指标,以轻量级的方式检测帧的共视性。然后设计了专门的硬件单元,以确保高性能的AGS算法执行,并允许重新分配3DGS的不平衡工作负载。
相关推荐
薛定e的猫咪12 天前
【AAAI 2025】基于扩散模型的昂贵多目标贝叶斯优化
论文阅读·人工智能·算法
YMWM_12 天前
论文阅读“SimVLA: A Simple VLA Baseline for Robotic Manipulation“
论文阅读·vla
m0_6501082412 天前
VLN-Zero:零样本机器人导航的神经符号视觉语言规划框架
论文阅读·零样本·机器人导航·视觉语言导航·未知环境快速适配·符号化场景图·vlm推理
晓山清12 天前
【论文阅读】Self-supervised Learning of Person-specific Facial Dynamics for APR
论文阅读
张较瘦_12 天前
[论文阅读] AI + 教育 | 不是单纯看视频!软件工程培训的游戏化融合之道
论文阅读·人工智能·软件工程
张较瘦_13 天前
[论文阅读] AI + 软件工程 | 用统计置信度破解AI功能正确性评估难题——SCFC方法详解
论文阅读·人工智能·软件工程
Matrix_1114 天前
论文阅读--Agent AI 探索多模态交互的前沿领域(二)
论文阅读·人工智能
万里鹏程转瞬至14 天前
论文简读 | TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times
论文阅读·深度学习·aigc
Matrix_1115 天前
论文阅读--Agent AI 探索多模态交互的前沿领域(一)
论文阅读·人工智能
@––––––15 天前
论文阅读笔记:π 0 : A Vision-Language-Action Flow Model for General Robot Control
论文阅读·笔记