StreamVGGT、Stream3R、InfiniteVGGT论文解读

这三篇工作都是解决视频流中进行高效、在线、可扩展的4D几何重建问题。

目录

一、StreamVGGT

1、概述

2、架构

二、Stream3R

1、概述

2、架构

三、InfiniteVGGT

1、概述

2、架构

3、Long3D评估数据集


一、StreamVGGT

1、概述

motivation:VGGT实现流式输入下的重建存在效率低下,不能扩展,离线处理的问题。另外VGGT考虑全注意力机制复杂度较高,考虑大模型中的因果机制,引入到VGGT模型中。

contribution:先建立一个因果Transformer架构(StreamVGGT),之后利用具有全局注意力的VGGT作为教师模型,通过知识蒸馏指导StreamVGGT模型训练,并且在推理过程中引入了隐式缓存,用来存储历史帧的KV,实现增量式重建。

2、架构

(1)StreamVGGT

StreamVGGT与VGGT的模型只有Decoder不同,其中空间注意力机制就是以往的帧间注意力机制,而StreamVGGT中调整了顺序,先进行帧间注意力,保证每一帧特征明显,再进行因果推理。VGGT则是侧重全局性,所以优先全局注意力。

VGGT:(lobal attn->Frame attn) x n

Stream VGGT: (Spatial attn->Temporal Causal attn) x n

(2)推理机制

以往的VGGT,如果强行做流式推理,则需要每当新的一帧出现时,先计算与历史帧的全局交互,然后更新整个历史序列的几何信息。

cache memory tokens方法,当输入第T帧时,我们定义DINOv2生成的编码特征为,而前T-1帧的解码器得到的KV cache,作为缓存信息,保存了前T-1帧的几何信息:

(3)训练过程

训练每次只采样10帧的短序列。

训练过程中采用蒸馏策略,教师模型为预训练好的VGGT仅用于推理,学生模型为StreamVGGT。首先利用VGGT训练一组相机参数、深度、点云等作为伪真值,然后基于伪真值计算所有的Loss(假定伪真值效果好于真值,完全相信伪真值),这样的好处是训练速度大大加快,目标只是在原有基础上学会因果关系。

这个蒸馏的代码来自于DUSt3R

二、Stream3R

1、概述

motivation:与StreamVGGT相同

contribution:直接修改VGGT的Decoder层为因果注意力,并基于VGGT权重进行端到端训练。

2、架构

这个模型更接近VGGT改causal attn,只是把全局注意力改成causal attn,这个是beta版本。

alpha版本则是基于DUSt3R的Croco DiT,但是解码器仍然用同一个共享的解码器,与VGGT相同。

训练过程中采用随机采样的短序列(4-10帧)进行端到端训练。

三、InfiniteVGGT

1、概述

motivation:

(1)解决在线3D几何理解中的根本矛盾:当前基于学习的3D重建方法分为离线处理和在线流式处理两种范式。离线方法(如VGGT)虽然重建质量高,但由于其批量处理的本质,内存需求与序列长度成正比,无法处理在线或无限长度的序列。而现有的在线流式方法则面临两难困境:一类(如StreamVGGT)通过不断累积Key-Value(KV)缓存来存储历史信息,导致内存和计算开销无限增长,最终系统崩溃;另一类(如CUT3R、TTT3R)将历史信息压缩到一个固定的隐状态(如RNN状态)中,虽然保证了有界资源,但会丢失关键信息,导致长期漂移和灾难性遗忘。

(2)**突破技术实现上的悖论:**为了高效处理不断增长的KV缓存,现有方法依赖于FlashAttention等硬件优化内核,这些内核通过避免显式计算完整的注意力矩阵来获得速度。然而,传统的缓存剪枝策略却恰恰需要访问这些注意力权重来判断token的重要性,这就形成了一个悖论:优化工具本身阻止了我们智能地缩小缓存。

(3)缺乏真正的长期评估基准:要验证一个系统在真正无限长序列上的性能,需要一个长期、连续的基准测试。而现有基准要么序列过短(≤1000帧),要么只是不连续片段的集合,无法对模型的长期、不间断性能进行严格评估。

contribution:VGGT/StreamVGGT+推理时动态运行的,基于Key相似度的KVcache智能缓存管理算法

comparison other algorithms:

2、架构

(1)分析

分析1:流式模型的KV cache一定与帧的数量成正比,所以长视频下内存一定会承受不住的,slide window确实可以解决内存线性膨胀的问题,但如何保留有价值记忆需要重点考虑。

分析2:通过观测第29帧看向第1,2,3帧在不同层注意力的可视化。几乎不同历史帧的注意力图呈现近似分布,,这说明流式相机运动视角变化很小,当前帧查询会为相似的历史帧分配近似相同的注意力权重,但由于我们需要维护一个巨大的KV cache,所以这些近似相同的重复的value值严重影响内存,降低可扩展性。

分析3:不同注意力层的K和V在PCA降维后的特征空间分布。发现这两个点集是明显分离,方向大致垂直的,说明这两类向量降维后的核心特征维度上几乎没有线性相关性。

(2)建立记忆

模型基于StreamVGGT预训练模型,并修改KV cache的过滤操作

建立记忆:

首先第一帧经过DINOv2编码后的token在模型的第一层因果注意力模块中会生成对应的K和V,而这一帧所生成的KV对,被完整地存储起来作为不可变锚点集合

对于任一时刻t,任一特定层l和注意力头h,其总缓存被分为两部分:不可变锚点集合和包含第二帧开始到当前帧的所有历史token,即可变候选集

(3)相似度计算

剪枝策略仅应用与可变候选集,以保留信息量最大的token,计算是独立对每一层l和每一个头h进行的。

首先对候选集所有key向量归一化,并投影到单位球面上,得到key向量的方向:

对每一个头(l,h)的键空间建立一个参考向量,即平均键向量

使用负余弦相似度作为多样性分数,来衡量每一个归一化键与平均键差异,完全相同则cossim计算为1,完全相反则计算cossim为-1,所以尽量让负余弦相似度越大越好,保留每一层最独特的那部分token。

(4)分层自适应分配

信息多样性在模型中分布不均。浅层网络(如中间层) 负责提取和放大帧间的细微差异以进行空间推理,显示出较高的信息多样性。而最初的输入层 (处理颜色、亮度等低级统计信息)和最深的输出层(表征趋于融合,形成整体的语义理解)的多样性则显著较低。

计算层平均多样性分数 :对于每一层,先计算其内部所有token的"多样性分数"的均值,记为 。这代表了该层信息的平均独特程度。

通过Softmax分配预算比例 :将各层的平均多样性分数输入一个带温度参数的Softmax函数,计算出每一层应得的预算比例​。多样性越高的层,其预算比例就越大。

分配具体预算 :将总缓存预算 乘以各层的预算比例,就得到了该层实际的token存储预算

3、Long3D评估数据集

在Long3D提出之前,缺乏能够严格评估模型在极长、连续视频流上性能的公开基准。现有数据集(如7-Scenes)要么序列过短(≤1000帧),要么只是不连续片段的集合,无法测试模型在真正无限长、不间断输入下的长期稳定性和抗漂移能力。

Long3D数据集包含5个极具挑战性的室内外场景序列,每个序列长度约为2,000到10,000帧。它提供了连续的RGB图像流和对应的全局地面真值点云。研究者可以在该数据集上进行"密集视角流式重建"评估,即让模型处理整个图像流并生成一个全局点云,再与真值进行对齐和定量比较(使用Accuracy, Completion, Normal Consistency等指标)

参考:

https://github.com/NIRVANALAN/STream3R

https://github.com/wzzheng/StreamVGGT

https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT

相关推荐
格林威2 小时前
工业相机图像采集处理:从 RAW 数据到 AI 可读图像,堡盟相机 C#实战代码深度解析
c++·人工智能·数码相机·opencv·算法·计算机视觉·c#
NPUQS3 小时前
【Unity 3D学习】Unity 与 Python 互通入门:点击按钮调用 Python(超简单示例)
学习·3d·unity
User_芊芊君子3 小时前
文科生封神!Python+AI 零门槛变现:3 天造 App,指令即收入(附脉脉 AI 沙龙干货)
开发语言·人工智能·python
MeowNeko3 小时前
为什么说程序员重命名时电脑不要带中文?记一次python manage.py runserver时UnicodeDecodeError的原因与解决方案
人工智能·python·chatgpt·中间件·django·utf8
宇擎智脑科技4 小时前
我用游戏引擎的思想,重新设计了 AI Agent 的记忆系统
人工智能·智能体·记忆系统
智算菩萨10 小时前
【实战讲解】ChatGPT 5.4深度文献检索完全指南:提示词工程与学术实战策略
论文阅读·人工智能·gpt·搜索引擎·chatgpt·提示词·论文笔记
gutsyang10 小时前
Google Stitch:最佳实践
人工智能·google·gemini·stitch
gloomyfish10 小时前
【最新认知】2026 | 深度学习工业缺陷检测三种技术路线分析与趋势
人工智能·深度学习