前馈式3D Gaussian Splatting 研究地图(路线三):大重建模型如何进入 3DGS——GRM、GS-LRM 与 Long-LRM 的方法转向

Part III:Transformer 如何重写前馈式 3DGS 的信息聚合方式

  • [0. 导言](#0. 导言)
  • [1. 为什么几何优先之后,大模型仍然会出现](#1. 为什么几何优先之后,大模型仍然会出现)
    • [1.1 路线二解决了什么](#1.1 路线二解决了什么)
    • [1.2 但 geometry-first 并没有消灭大模型需求](#1.2 但 geometry-first 并没有消灭大模型需求)
    • [1.3 为什么 LRM 路线会出现](#1.3 为什么 LRM 路线会出现)
  • [2. GRM:pixel-aligned Gaussian + transformer aggregation](#2. GRM:pixel-aligned Gaussian + transformer aggregation)
    • [2.1 GRM 的核心句法](#2.1 GRM 的核心句法)
    • [2.2 GRM 与 pixelSplat 的本质差异](#2.2 GRM 与 pixelSplat 的本质差异)
    • [2.3 它相比 geometry-first 做了什么取舍](#2.3 它相比 geometry-first 做了什么取舍)
  • [3. GS-LRM:最简 transformer 化 reconstruction](#3. GS-LRM:最简 transformer 化 reconstruction)
    • [3.1 GS-LRM 的极简范式](#3.1 GS-LRM 的极简范式)
    • [3.2 为什么它的"简单性"具有结构性意义](#3.2 为什么它的“简单性”具有结构性意义)
    • [3.3 为什么路线三不一定需要复杂几何模块也能成立](#3.3 为什么路线三不一定需要复杂几何模块也能成立)
  • [4. Long-LRM:为什么 32 张输入会改变问题性质](#4. Long-LRM:为什么 32 张输入会改变问题性质)
    • [4.1 从 2--4 张到 32 张,不是量变,而是 regime change](#4.1 从 2–4 张到 32 张,不是量变,而是 regime change)
    • [4.2 为什么长上下文需要 Mamba / token merging / Gaussian pruning](#4.2 为什么长上下文需要 Mamba / token merging / Gaussian pruning)
    • [4.3 为什么 Long-LRM 是场景级拐点](#4.3 为什么 Long-LRM 是场景级拐点)
  • [5. Long-LRM++:为什么直接预测数百万 Gaussian 容易模糊细节](#5. Long-LRM++:为什么直接预测数百万 Gaussian 容易模糊细节)
    • [5.1 路线三的新主矛盾:context 足够大,但细节开始发虚](#5.1 路线三的新主矛盾:context 足够大,但细节开始发虚)
    • [5.2 semi-explicit representation 到底修正了什么](#5.2 semi-explicit representation 到底修正了什么)
    • [5.3 为什么 lightweight decoder 是必要的,而不是妥协](#5.3 为什么 lightweight decoder 是必要的,而不是妥协)
    • [5.4 从 Long-LRM 到 Long-LRM++,主问题已经变了](#5.4 从 Long-LRM 到 Long-LRM++,主问题已经变了)
  • [6. LRM 路线的优势:统一、多任务潜力、长序列扩展](#6. LRM 路线的优势:统一、多任务潜力、长序列扩展)
    • [6.1 统一的 token-based 输入接口](#6.1 统一的 token-based 输入接口)
    • [6.2 更容易与"大模型方法学"对接](#6.2 更容易与“大模型方法学”对接)
    • [6.3 对 wide-coverage reconstruction 更自然](#6.3 对 wide-coverage reconstruction 更自然)
    • [6.4 更有希望连接到多任务与空间基础模型](#6.4 更有希望连接到多任务与空间基础模型)
  • [7. LRM 路线的代价:显式几何可解释性下降、训练资源上升](#7. LRM 路线的代价:显式几何可解释性下降、训练资源上升)
    • [7.1 显式几何可解释性下降](#7.1 显式几何可解释性下降)
    • [7.2 训练与推理资源上升](#7.2 训练与推理资源上升)
    • [7.3 长上下文并不自动保证局部细节](#7.3 长上下文并不自动保证局部细节)
    • [7.4 大模型越大,越像系统设计而不是单模块设计](#7.4 大模型越大,越像系统设计而不是单模块设计)
  • [8. 它与 cost volume 路线是替代关系还是互补关系](#8. 它与 cost volume 路线是替代关系还是互补关系)
    • [8.1 不宜简单说"大模型取代几何方法"](#8.1 不宜简单说“大模型取代几何方法”)
    • [8.2 二者的真正边界](#8.2 二者的真正边界)
    • [8.3 未来更可能是深度融合](#8.3 未来更可能是深度融合)
  • [9. 大重建模型是否会成为空间基础模型的入口](#9. 大重建模型是否会成为空间基础模型的入口)
  • [10. 结语](#10. 结语)
  • [附:GRM / GS-LRM / Long-LRM / Long-LRM++ 统一对比](#附:GRM / GS-LRM / Long-LRM / Long-LRM++ 统一对比)
  • 参考文献

系列文章全文导航(总览篇)
Part I:前馈式 3DGS 的起步范式:从像素到高斯
Part II:前馈式 3DGS 的 depth-first 转向
Part III:Transformer 如何重写前馈式 3DGS 的信息聚合方式
[Part IV:Pose-Free 前馈式 3DGS:从实验室输入走向真实世界图像集合](#Part IV:Pose-Free 前馈式 3DGS:从实验室输入走向真实世界图像集合)
[Part V:结构化潜空间与高斯体:前馈式 3DGS 的下一代表示基座](#Part V:结构化潜空间与高斯体:前馈式 3DGS 的下一代表示基座)
[Part VI:Adaptive Placement and Generative Coupling in Feed-Forward 3DGS](#Part VI:Adaptive Placement and Generative Coupling in Feed-Forward 3DGS)


路线三真正值得单独成篇,不是因为它把参数做大了,而是因为它把前馈式 3DGS 的核心问题,从"如何更显式地估计局部几何"逐步改写成"如何在一个全局 token sequence 中吸收、压缩、重组多视图信息,并最终解码为 Gaussian 表示"。如果说路线二的主旋律是 geometry-first,那么路线三的主旋律就是 transformer aggregation / global context / long sequence。GRM、GS-LRM、Long-LRM、Long-LRM++ 共同标记了这条转向:多视图几何不再主要被写进 cost volume,而是越来越多地被写进 token mixing、sequence modeling 与 representation decoding 里。

需要提前说明的是,本文主角严格限定为 GRM、GS-LRM、Long-LRM、Long-LRM++ 。MVSplat、DepthSplat 只作为路线二的背景,用于说明为什么 field 会从几何优先继续走向大模型化;pose-free / uncalibrated / foundation-geometry 一支,以及 structured latent / voxel-aligned 一支,不在本文主线之内。本文关心的不是"谁更大",而是 多视图几何与场景信息如何被全局 token 序列吸收、压缩、重组,并最终解码为 Gaussian 表示


0. 导言

路线三是前馈式 3DGS 从"几何模块驱动"走向"全局上下文聚合驱动"的关键转折。原始 3DGS 的核心优势在于显式高斯表示与实时渲染,但它依然依赖场景级优化;而 feed-forward generalizable 3DGS 的任务,是把"每个场景都要优化"的流程,改写成"一个模型直接预测一个场景的高斯表示"。

在这件事上,GRM 与 GS-LRM 率先把 sparse-view reconstruction 写成 transformer 风格的 token-to-Gaussian 映射;Long-LRM 则进一步把问题推进到 32 张高分辨率输入、wide-coverage、scene-level reconstruction;Long-LRM++ 又指出,仅有更大的上下文并不自动等于更好的细节,因而把 fine-detail preservation 拉成一条新的主矛盾。

换句话说,路线三不是在说"大模型更强",而是在说:一旦前馈式 3DGS 的问题从局部几何定位,转向场景级信息整合、跨视图一致性压缩、长范围覆盖与统一表示学习,token aggregation 就会自然成为新的主路。

这也是为什么理解路线三,不只是为了理解四篇论文本身,更是为了理解后续的空间基础模型、世界模型、结构化 3D latent 乃至生成式 3D 资产模型会如何继承这条方法论。这个判断属于趋势推断,但它是建立在 LRM 一系"用高容量 transformer + 大规模数据学习重建先验"的演进事实上。

形式上,我们可以先把路线三抽象成一个统一问题:

T = ⋃ i = 1 N P a t c h i f y ( C o n c a t ( I i , P i ) ) , (1) \mathcal{T}= \bigcup_{i=1}^{N} \mathrm{Patchify}\big(\mathrm{Concat}(I_i, P_i)\big), \tag{1} T=i=1⋃NPatchify(Concat(Ii,Pi)),(1)

Z = A θ ( T ) , G ^ = D ϕ ( Z ) , (2) Z= A_\theta(\mathcal{T}), \qquad \hat{\mathcal G}= D_\phi(Z), \tag{2} Z=Aθ(T),G^=Dϕ(Z),(2)

其中, I i I_i Ii 表示第 i i i 个输入视图, P i P_i Pi 表示与其绑定的相机条件(常见为 pose、Plücker rays 等), T \mathcal{T} T 是跨视图拼接后的 token sequence, A θ A_\theta Aθ 是 sequence aggregator,通常由 transformer、Mamba 或二者混合构成, D ϕ D_\phi Dϕ 则把聚合后的 token 状态解码为 Gaussian 表示 G ^ \hat{\mathcal G} G^。

真正的分歧不在于是否使用高斯,而在于几何信息到底是在显式中间变量里被组织,还是在 token mixing 的隐藏状态里被吸收。 这也是后文分析 token aggregation 与 explicit geometry 边界时的前提。


1. 为什么几何优先之后,大模型仍然会出现

1.1 路线二解决了什么

路线二的代表工作------例如 MVSplat、DepthSplat------把前馈式 3DGS 的关键难题,首先归结为 Gaussian center localization 。MVSplat 明确用 plane sweeping 构建 cost volume,并将跨视图特征相似性存储在 cost volume 中,以获得深度估计的几何线索;DepthSplat 则进一步把高斯重建与深度估计绑定起来,强调 pre-trained monocular depth features 与 multi-view depth model 的互相增益。也就是说,路线二的核心句法是:先把几何中心估准,再去回归其它 Gaussian 属性。

形式上,可将 geometry-first 写为:

C ( x , d ) = A g g ( F i ( π i ( Π − 1 ( x , d ) ) ) i = 1 N ) , (3) C(x,d)= \mathrm{Agg}\Big( {F_i(\pi_i(\Pi^{-1}(x,d)))}_{i=1}^{N} \Big), \tag{3} C(x,d)=Agg(Fi(πi(Π−1(x,d)))i=1N),(3)

d ^ ( x ) = arg ⁡ max ⁡ d C ( x , d ) , μ ( x ) = Π − 1 ( x , d ^ ( x ) ) , (4) \hat d(x)=\arg\max_d C(x,d), \qquad \mu(x)=\Pi^{-1}(x,\hat d(x)), \tag{4} d^(x)=argdmaxC(x,d),μ(x)=Π−1(x,d^(x)),(4)

其中, x x x 是参考视图像素, d d d 是候选深度, F i F_i Fi 是第 i i i 个视图的 2D 特征, π i ( ⋅ ) \pi_i(\cdot) πi(⋅) 表示把 3D 点投影到第 i i i 个视图, Π − 1 ( x , d ) \Pi^{-1}(x,d) Π−1(x,d) 则是像素-深度到 3D 点的反投影。这一路线的优点是:中间变量具有明确的几何语义。 你可以直接讨论 plane sweep、深度峰值、可见性与投影一致性。工程上,这种可解释性极其珍贵。


1.2 但 geometry-first 并没有消灭大模型需求

问题在于,cost volume 天生更像一个 局部几何推理器 ,而不是一个 长范围场景信息整合器。它擅长在有限视角、有限深度假设、有限空间邻域内推理局部结构;但当输入视角从 2--4 张增加到几十张、视场覆盖从局部片段扩展到 360° 场景、数据分布从对象走向复杂室内外场景时,问题就不再只是"哪个深度最合理",而变成"如何把大范围、多尺度、长上下文的跨视图信息统一压缩到一个可泛化的 scene representation 中"。

Long-LRM 的出发点就很直接:此前的 feed-forward GS 模型通常只能处理 1--4 张输入图像,覆盖范围有限,因此无法重建真正的大场景。

这意味着,geometry-first 并没有过时;它只是暴露出边界。一旦问题从"局部深度估计"转向"场景级信息整合",全局 token aggregation 就会自然出现。 因为此时的主问题不再只是显式三维几何的局部定位,而是:哪些视图该互相通信、哪些上下文该跨尺度共享、哪些冗余该在中间状态中被压缩、哪些信息该保留到最终 Gaussian 解码。这个问题的语言,更接近 sequence modeling,而不只是 stereo matching。


1.3 为什么 LRM 路线会出现

如果把时间线再往前追,LRM 本身就已经给出了一个先例:它用一个高容量 transformer,从单张输入图像直接预测 NeRF/triplane 表示,并在大规模数据上训练重建先验。GS-LRM 明确把自己放在这条谱系里,但指出早期 LRM 基于 triplane NeRF,存在固定 triplane 分辨率与体渲染开销的问题,这会限制细节保持与训练/渲染速度。

因此,GS-LRM 的关键动作不是简单照搬 LRM,而是把"large reconstruction model"改写成"针对 3D Gaussian Splatting 的 large reconstruction model"。

本质上,路线三出现的根本原因不是"想把网络做大",而是 field 需要一种更统一的信息聚合基底(reconstruction substrate):它要能吞下对象与场景、短序列与长序列、局部结构与全局覆盖,并且尽可能少依赖手工拼接的几何模块。这条路线的历史作用,正在于它把前馈式 3DGS 从"一个聪明的几何头"逐步推向"一个真正的场景级重建模型"。


2. GRM:pixel-aligned Gaussian + transformer aggregation

2.1 GRM 的核心句法

GRM 的重要性,不只是它效果好,而是它第一次很明确地把 pixel-aligned Gaussian prediction 放进了 全局 transformer aggregation 框架中。GRM 的做法是:对每个输入视图预测一张 Gaussian attribute map,每个像素对应一个沿该视线约束的高斯;属性包括深度、旋转、尺度、opacity 与颜色项,然后再把这些 pixel-aligned Gaussians 反投影到 3D,形成稠密的 3D Gaussian 集合。与此同时,GRM 用纯 transformer 编码器跨所有视图做全局 self-attention,并引入 transformer-based upsampler 逐步恢复到输入分辨率,以补偿低分辨率 tokenization 对高频细节的损失。

形式上,GRM 的 pixel-aligned Gaussian 可以写为:

μ i , u = o i + d ^ i , u , r i , u , (5) \mu_{i,u}= o_i + \hat d_{i,u}, r_{i,u}, \tag{5} μi,u=oi+d^i,u,ri,u,(5)

g i , u = ( μ i , u , R i , u , S i , u , α i , u , c i , u ) , G ^ = ⋃ i , u g i , u , (6) g_{i,u}=\big( \mu_{i,u}, R_{i,u}, S_{i,u}, \alpha_{i,u}, c_{i,u} \big), \qquad \hat{\mathcal G}= \bigcup_{i,u} g_{i,u}, \tag{6} gi,u=(μi,u,Ri,u,Si,u,αi,u,ci,u),G^=i,u⋃gi,u,(6)

其中, u u u 表示第 i i i 个视图中的像素位置, o i o_i oi 为相机中心, r i , u r_{i,u} ri,u 为该像素对应的 viewing ray, d ^ i , u \hat d_{i,u} d^i,u 为网络预测的深度, R , S , α , c R,S,\alpha,c R,S,α,c 分别对应旋转、尺度、不透明度与颜色项。这里的关键不是公式本身,而是 高斯中心不再自由漂浮在 3D 空间中,而是被约束在射线上。工程上,这显著降低了学习难度,也保留了一部分可解释性。


2.2 GRM 与 pixelSplat 的本质差异

GRM 与 pixelSplat 都不是 optimization-based 3DGS,它们都在探索 feed-forward Gaussian reconstruction。但二者的方法本质不同:pixelSplat 从图像对出发,预测 3D 概率分布并从中可微采样 Gaussian means,以应对 sparse、局部支撑表示带来的局部最小值问题;GRM 则不再把重点放在"两视图对上的高斯均值采样",而是把多视图输入统一编码为一个全局 token state,再在这个 state 上预测 pixel-aligned Gaussian maps,并通过 transformer upsampler 恢复细节。

换句话说,pixelSplat 更像"带 probabilistic mean sampling 的 pairwise reconstruction",而 GRM 已经明显转向"multi-view transformer aggregation + pixel-aligned decoding"。

这也是 GRM 的结构性意义:它不是单纯延续 pixel-aligned 路线,而是在告诉后续工作,pixel-aligned Gaussian 本身可以只是解码约束,真正的核心可以转移到前面的全局 aggregation。 一旦接受这件事,后面的 GS-LRM 与 Long-LRM 就顺理成章了------它们会进一步把"显式几何模块"从中心位置后撤,把"序列聚合器"推到舞台中央。


2.3 它相比 geometry-first 做了什么取舍

GRM 并没有像 MVSplat 那样显式构造 cost volume,也没有把深度概率体作为方法中心。它保留了沿光线约束的几何偏置,却把跨视图 correspondence 的主要求解交给 self-attention 与 token communication。真正的分歧不在于"有没有几何",而在于 几何是被显式地组织为中间结构,还是被隐式地吸收进 token mixing。GRM 属于重要中间态:它还没有走到 Long-LRM 的场景级 regime,但已经完成了从"局部几何模块中心"到"全局 aggregation 中心"的第一次方法论转向。


3. GS-LRM:最简 transformer 化 reconstruction

3.1 GS-LRM 的极简范式

如果说 GRM 还是"pixel-aligned Gaussian + transformer upsampler"的复合设计,那么 GS-LRM 则把路线三写到了一个极简而清晰的形式:直接 patchify 多视图 posed images,把所有 tokens 串联后送入 transformer blocks,再从输出 tokens 直接线性解码 per-pixel Gaussian 参数。

GS-LRM 明确把 posed image tokenization、multi-view concatenation、transformer self-attention、linear decoding 这四件事,写成一个干净的 sequence-to-Gaussian pipeline。

形式上,可写为:

t i , j = L i n e a r ( P a t c h i f y p ( C o n c a t ( I i , P i ) ) ) , (7) {t_{i,j}}= \mathrm{Linear}\Big( \mathrm{Patchify}_p( \mathrm{Concat}(I_i, P_i) ) \Big), \tag{7} ti,j=Linear(Patchifyp(Concat(Ii,Pi))),(7)

Z = T r a n s f o r m e r ( C o n c a t ∗ i , j t ∗ i , j ) , G i , j = L i n e a r ( Z ) , (8) Z= \mathrm{Transformer}\Big( \mathrm{Concat}*{i,j}{t*{i,j}} \Big), \qquad {G_{i,j}}= \mathrm{Linear}(Z), \tag{8} Z=Transformer(Concat∗i,jt∗i,j),Gi,j=Linear(Z),(8)

再经 unpatchify,把每个 patch token 对应的 p 2 p^2 p2 个像素级 Gaussian 参数恢复为 per-pixel Gaussians。这里 P i P_i Pi 常用 Plücker ray coordinates 进行 pose conditioning。

GS-LRM 特别有意思的一点是:由于 Plücker 坐标已经随像素与视角变化,作者直接用它作为空间区分信号,因此不再额外使用位置编码或 view embedding。这个设计非常"干净",也非常有大模型气质。


3.2 为什么它的"简单性"具有结构性意义

GS-LRM 的简单,并不是工程偷懒,而是方法学上的清场。早期 LRM 面向单图到 NeRF/triplane,需要复杂的 latent representation 与 volumetric rendering;GS-LRM 则直接把输出改成 per-pixel Gaussians,从而让输入与输出在像素空间上形成了强对齐:每个像素沿着视线吐出一个高斯。

这带来两个结构性好处:第一,架构更像标准 ViT/transformer encoder-decoder,更容易扩展模型规模、数据规模与训练范式;第二,per-pixel Gaussian 天然适配不同分辨率输入,比固定 triplane resolution 更容易保住高频细节。

GS-LRM 自己也明确强调,早期 LRM 的 triplane NeRF 在分辨率与体渲染开销上存在限制,而 per-pixel Gaussian prediction 可以自然处理对象与复杂场景。

换句话说,GS-LRM 的价值不只在于"用 transformer 做 3DGS",而在于它首次给出了一个非常清晰的范式定义:large reconstruction model for 3DGS = patchified posed images + global self-attention + direct per-pixel Gaussian decoding。 这条定义后来几乎直接被 Long-LRM 继承。Long-LRM 自己也明确写道,它"similar to GS-LRM"地将 per-pixel GS prediction 视作一个 sequence-to-sequence mapping,只是把问题推向更长序列与更高分辨率。


3.3 为什么路线三不一定需要复杂几何模块也能成立

GS-LRM 给出的核心启发是:前馈式 3DGS 并不一定要先显式估深,再解码高斯。 只要输入 token 足够承载 pose-conditioned visual evidence,global self-attention 就有可能在隐藏状态里完成大量 correspondence aggregation,最后直接回归 pixel-aligned Gaussians。这不意味着几何不重要,而是意味着几何推理的"显式载体"发生了变化。它从 cost volume / depth map 这样的中间结构,转移到了 token interactions 里。

但这种极简路线也有隐患。它的优势是统一、清晰、可扩展;它的风险则是显式几何可解释性下降,而且在长序列、高分辨率、多场景 coverage 设定下,token 数量会迅速膨胀。也正因如此,GS-LRM 更像路线三的"范式奠基者",而不是终局。真正把这条路推到新 regime 的,是 Long-LRM。


4. Long-LRM:为什么 32 张输入会改变问题性质

4.1 从 2--4 张到 32 张,不是量变,而是 regime change

Long-LRM 的问题意识非常清楚:此前的 feed-forward 3DGS,大都停留在 1--4 张输入图像的设定,覆盖范围有限,更多是在做局部 sparse-view reconstruction;而真实世界的大场景 reconstruction,需要至少几十张图像去覆盖足够大的视角跨度。因此,Long-LRM 把输入直接提升到 32 张 960×540 图像 ,并尝试在 单次前向 中完成 wide-coverage、scene-level Gaussian reconstruction 。作者明确指出,这样的输入配置对应约 250K tokens,已经比很多现代大语言模型的上下文还长。

形式上,这个 regime change 可以直接写出来:

L = N ⋅ H W p 2 , (9) L= N \cdot \frac{HW}{p^2}, \tag{9} L=N⋅p2HW,(9)

当 N = 32 , H = 960 , W = 540 , p = 8 N=32,\ H=960,\ W=540,\ p=8 N=32, H=960, W=540, p=8 时,

L = N ⋅ H W p 2 , (9) L= N \cdot \frac{HW}{p^2}, \tag{9} L=N⋅p2HW,(9)

L = 32 × 960 × 540 8 2 = 259,200 ≈ 250 K . (10) L= 32 \times \frac{960 \times 540}{8^2}= 259{,}200 \approx 250K. \tag{10} L=32×82960×540=259,200≈250K.(10)

从 2--4 张到 32 张,问题不再只是多喂一些图,而是 token sequence 的组织、压缩、传输与预算控制本身,已经变成方法核心。 在这个长度下,谁负责 global context,谁负责线性扩展,谁负责压缩冗余,都会影响模型是否可训练、可推理、可保真。


4.2 为什么长上下文需要 Mamba / token merging / Gaussian pruning

这正是 Long-LRM 选择 Mamba2 + Transformer 混合架构 的原因。Long-LRM 没有彻底放弃 transformer,因为作者明确提到 transformer 在长上下文推理与质量上仍然更强;但也没有坚持纯 transformer,因为其序列代价会过高。因此它采用 interleaved 的 hybrid block:大量 Mamba2 blocks 负责更可扩展的 sequence mixing,少量 global self-attention transformer blocks 负责质量与长程依赖。作者给出的实现是每个 hybrid block 由 7 个 Mamba blocks + 1 个 transformer block 组成。

但仅有 Mamba 还不够。Long-LRM 明确指出,在 32 张 960×540、patch size 8 的设定下,即使是线性复杂度的 Mamba,内存仍然会爆掉。因此它必须在网络中部引入 token merging ,通过类似 CNN 多层级编码器的思路,把 token length 压缩到原来的 1/4。这不是一个可有可无的微调,而是长序列可训练性的硬前提。

接着,token 压缩解决的是"中间状态太长"的问题,而 Gaussian pruning 解决的是"输出显式表示太大"的问题。因为 per-pixel Gaussian decoding 在 32 张高分辨率输入下会产生约 1700 万个 Gaussians。Long-LRM 明确指出,这样的数量对显存与渲染速度都会造成巨大压力,而且由于视锥重叠与高分辨率输入,冗余极高,因此必须在训练与测试阶段做 opacity-based pruning。

这正好回答了本文要求显式写深的第二个学术问题:为什么长上下文需要 Mamba / token merge / Gaussian pruning? 因为在长序列大场景设定下,问题已经变成一个三重预算问题:

第一,sequence budget ------中间 token 太多,attention/Mamba 都会吃不消;

第二,representation budget ------输出的显式高斯太多,渲染和反传都顶不住;

第三,coverage budget------如果你不允许更多视角进入模型,就根本拿不到 wide-coverage scene reconstruction。

Long-LRM 的贡献,就是第一次把这三种预算同时放进一个统一的 feed-forward 3DGS 系统设计里。


4.3 为什么 Long-LRM 是场景级拐点

Long-LRM 的历史作用,不只是"把图像数从 4 变成 32",而是它首次让 feed-forward 3DGS 进入了 scene-level large reconstruction model 的语境。此前的 short-context 模型,更像局部场景片段的泛化器;而 Long-LRM 则开始具备"整场景一次性重建"的问题定义。作者自己也直接把它表述为:前作只能处理 1--4 张输入并重建场景的一小部分,而 Long-LRM 则尝试在单次前向中重建整个场景。

换句话说,Long-LRM 把路线三从"transformer 化 reconstruction"推进到了"wide-coverage reconstruction"。真正的分歧不在于多了多少张图,而在于 输入规模改变了任务语义:模型不再只是做 sparse-view interpolation,而是在做长范围场景信息压缩、全局结构协调与 coverage-aware Gaussian budgeting。自这一点起,feed-forward 3DGS 才真正有资格谈"空间基础模型的入口"。


5. Long-LRM++:为什么直接预测数百万 Gaussian 容易模糊细节

5.1 路线三的新主矛盾:context 足够大,但细节开始发虚

Long-LRM++ 的问题意识极具代表性。它没有否定 Long-LRM 对长上下文与大覆盖范围的推进,而是指出:当输入视角和场景覆盖范围已经足够大时,新的主问题不再是"上下文够不够",而是"全局上下文如何与局部高频细节兼容"。

作者非常直接地说明:传统 color splatting 机制下,每个 Gaussian 只携带一个颜色;要想忠实复现文本、细线、锐利边界等 fine details,往往需要预测 tens of millions of Gaussians,甚至接近 one-per-pixel 的密度,而轻微的 pose 或 Gaussian position 误差都会进一步放大成可见的 blur。

这正是本文第三个必须写深的学术问题:为什么 fine details preservation 会成为大重建模型路线的新瓶颈? 因为在 short-context、小场景、低覆盖设定下,模型的主矛盾是"信息不够";而在 long-context、scene-level、wide-coverage 设定下,模型的主矛盾逐渐变成"信息太多,但必须被压进一个一次性显式表示里"。

如果这个显式表示仍然要求每个 Gaussian 同时承担 精确几何定位 + 颜色承载 + 高频细节表达 ,那么误差传播就会非常敏感。更大上下文并不自动等于更好细节;它只是让全局一致性更有希望,而细节保真则需要新的表示与解码策略。


5.2 semi-explicit representation 到底修正了什么

Long-LRM++ 的核心修正,是从 Long-LRM 的 pixel-aligned color Gaussians ,转向 free-moving feature Gaussians + lightweight decoder 的半显式表示。它仍然保留 3D Gaussian 的显式空间位置与实值度量关系,但放松了 Gaussian position/color 与真实表面的严格一一对齐;每个 Gaussian 携带的不再是固定颜色,而是 feature vector。渲染时,先把 feature Gaussians splat 成目标视角的 feature map,再通过一个轻量级 decoder 生成最终 RGB 或 depth。

形式上,可写为:

g k = ( μ k , Σ k , α k , f k ) , (11) g_k= (\mu_k,\Sigma_k,\alpha_k,f_k), \tag{11} gk=(μk,Σk,αk,fk),(11)

F t = R g s ( g k , Π t ) , I ^ t = D d e c ( F t ) , (12) F_t= R_{\mathrm{gs}}({g_k}, \Pi_t), \qquad \hat I_t= D_{\mathrm{dec}}(F_t), \tag{12} Ft=Rgs(gk,Πt),I^t=Ddec(Ft),(12)

其中, f k f_k fk 是 Gaussian feature,而不再是固定颜色; R g s R_{\mathrm{gs}} Rgs 是把 feature Gaussians splat 到目标视角的操作, D d e c D_{\mathrm{dec}} Ddec 是目标帧 decoder。

与 Long-LRM 的"直接把高斯当作最终颜色单元"相比,这相当于把表示分成两层:显式空间锚点 + 轻量隐式解码器。这就是所谓 semi-explicit representation。工程上,这种分层让高频细节不必完全依赖"高斯数量暴涨"来表达。


5.3 为什么 lightweight decoder 是必要的,而不是妥协

Long-LRM++ 的 decoder 不是随便加一层网络,而是针对细节问题做了两项关键设计。第一,decoder 中引入 translation-invariant local-attention blocks ,作者指出这相比带绝对位置编码的全局 attention,能更稳地处理目标帧中的局部结构,因为同一个物体不应因为出现在不同图像区域就被不同方式处理。第二,它加入 multi-space partitioning and merging,把 Gaussian 集合分成多个子集独立渲染和解码,再在输出前融合,以降低不同内容子空间互相干扰的风险。

这一设计的结构性意义在于:Long-LRM++ 承认,仅靠一个统一的 feed-forward decoder 去直接输出数百万 color Gaussians,是一条在细节上过于脆弱的路线。因此,它不是继续把 decoder 做得更深、更慢,而是通过 半显式表示 + 轻量解码 ,把"高斯负责几何锚定,decoder 负责局部细节恢复"这件事重新分工。Long-LRM++ 甚至明确说明,在这种表示下,它只需要 Long-LRM 1/4 的 Gaussian 数量,就能显著超过后者的渲染质量。


5.4 从 Long-LRM 到 Long-LRM++,主问题已经变了

到这一步,路线三的主问题已经发生第二次转移。GRM / GS-LRM 的问题是"如何把多视图 reconstruction 改写成 transformer aggregation";Long-LRM 的问题是"如何让 aggregation 扩展到 long sequence / wide coverage";Long-LRM++ 的问题则是"当 aggregation 已经足够强时,如何避免 explicit Gaussian decoder 把 fine details 平滑掉"。这不是简单补 patch,而是意味着路线三内部也在发生方法论深化。


6. LRM 路线的优势:统一、多任务潜力、长序列扩展

6.1 统一的 token-based 输入接口

路线三最重要的优势,不是单点性能,而是它提供了一个高度统一的 reconstruction substrate。无论是 GRM 的 multi-view transformer encoder、GS-LRM 的 patchified posed images、Long-LRM 的 long token sequence,还是 Long-LRM++ 的 interleaved Mamba/Transformer backbone,它们都把 3D reconstruction 的输入写成了相似的形式:图像 + 相机条件 → token sequence → global aggregation → Gaussian decoding。这使得模型规模扩展、数据规模扩展、任务迁移与统一训练范式变得自然得多。


6.2 更容易与"大模型方法学"对接

相比 cost volume 路线,LRM 路线与主流大模型方法学的耦合更直接。它天然拥有 token 序列、统一 backbone、可扩展上下文、预训练/微调空间,以及与生成模型、语言模型、世界模型接口对齐的潜力。原始 LRM 已经证明,高容量 transformer + 大规模多视图数据,可以学习强泛化的重建先验;GS-LRM、Long-LRM 与 Long-LRM++ 则把这一点从单图 NeRF 进一步推进到 sparse-view 3DGS、scene-level reconstruction 与长序列输入。


6.3 对 wide-coverage reconstruction 更自然

cost volume 路线擅长显式局部几何,但它对 long-context scene reconstruction 的"语言"并不天然;而 LRM 路线的语言就是 sequence modeling,因此它面对多视角 coverage 扩展时更自然。Long-LRM 之所以重要,恰恰因为它把"整场景一次性 feed-forward reconstruction"从不现实变成了可讨论的问题;Long-LRM++ 则进一步表明,这一路线不只可以扩输入长度,还可以在 scene-level high-resolution reconstruction 上追求质量与效率的再平衡。


6.4 更有希望连接到多任务与空间基础模型

从前瞻性视角看,路线三最值得关注的,不是它现在是否已经终结了几何方法,而是它是否提供了一个足够统一的"空间学习接口"。如果未来要把 reconstruction、novel view synthesis、depth、editing、generation、semantic grounding、language-conditioned spatial reasoning 放到同一个模型族里,token-based、large-context、representation-decoding 这套句法显然比 task-specific cost volume 更容易扩展。这里我强调的是"更容易扩展",不是"已经解决"。因为几何正确性、可解释性与评测协议仍然是硬问题。


7. LRM 路线的代价:显式几何可解释性下降、训练资源上升

7.1 显式几何可解释性下降

与 cost volume / depth-first 方法相比,LRM 路线最大的问题之一,就是几何推理越来越隐含在 token mixing 中。MVSplat 可以相对直接地回答"中心为什么落在这个深度";DepthSplat 也仍然围绕 depth model 组织中间语义。相反,在 GS-LRM、Long-LRM 一类方法中,center localization 与 cross-view correspondence 更多被折叠进 hidden states,最后直接回归为 per-pixel Gaussians。你当然仍然可以可视化 attention 或特征,但那不等价于拥有一个明确的几何中间变量。

这就回答了本文第一个问题:token aggregation 与 explicit geometry 的边界在哪里? 我的判断是,边界不在于是否使用相机条件,也不在于是否输出高斯,而在于 中间推理变量是否仍保留了可直接解释的 metric geometry semantics

若核心推理通过 C ( x , d ) C(x,d) C(x,d)、depth hypotheses、plane sweep、triangulation-like constraints 来组织,那么它更靠近 explicit geometry;若核心推理通过 T → Z → G ^ \mathcal T \rightarrow Z \rightarrow \hat{\mathcal G} T→Z→G^ 的隐藏状态变换来完成,那么它更靠近 token aggregation。GRM 站在边界上,因为它仍沿光线约束高斯;GS-LRM 与 Long-LRM 则进一步向 token-side 倾斜;Long-LRM++ 又通过 semi-explicit representation 部分把显式空间锚点拉回来。


7.2 训练与推理资源上升

路线三的第二个代价非常现实:token 数量、分辨率、序列长度都会迅速推高训练与推理成本。 Long-LRM 自己就给出最直接的证据:32 张 960×540、patch size 8 会形成约 250K token,哪怕采用 Mamba2,最高分辨率设置下纯 Mamba2 也会内存爆炸,因此必须上 token merging;而 per-pixel Gaussian decoding 又会带来约 1700 万个显式高斯,因此还必须做 Gaussian pruning。

这意味着,当模型规模上升时,问题越来越不像"设计一个模块",而更像"设计一个系统"。你要同时考虑 tokenizer、patch size、backbone mix、merge position、token width、Gaussian budget、rendering memory、training curriculum。Long-LRM++ 之所以把 hidden dimension 降到 768、去掉 token merging,同时改用 feature Gaussians,本质上也是在重新做系统预算,而不只是加一个更强 decoder。


7.3 长上下文并不自动保证局部细节

global context 有利于 scene coherence,这几乎没有疑问。但 local high-frequency structure 往往会在大范围聚合中被平均化、平滑化。Long-LRM++ 的整篇论文其实就是在证明这件事:Long-LRM 在 wide-coverage 上打开了新局面,但直接预测大量 color Gaussians 对微小误差过于敏感,从而在 text、thin structure、sharp edge 等 fine details 上容易出现 blur。

这也是我对路线三最重要的批判性判断之一:大上下文更像是"全局一致性增益器",而不是"细节保真正则项"。 这两件事没有天然等价关系。前者解决"信息是否被看见",后者解决"信息是否被保留并精确释放"。如果表示与解码不做改造,更多上下文反而可能把局部高频平均掉。Long-LRM++ 的 semi-explicit feature Gaussians + local-attention decoder,正是对这一矛盾的第一次系统回应。


7.4 大模型越大,越像系统设计而不是单模块设计

这是路线三最"企业级"的地方。真正的分歧不在于 backbone 是 transformer 还是 Mamba,而在于整套系统是否能在长上下文下同时维持:

  • 一、可训练;
  • 二、可推理;
  • 三、可渲染;
  • 四、可保真。

Long-LRM 用 token merging 与 Gaussian pruning 维持这四者的平衡;Long-LRM++ 用 semi-explicit representation 与 lightweight decoder 重新分配表示压力。它们都说明,scene-level large reconstruction model 的核心挑战已经从"单个 clever module"转向"token compression + representation budgeting + decoding strategy"的系统协同。


8. 它与 cost volume 路线是替代关系还是互补关系

8.1 不宜简单说"大模型取代几何方法"

我不赞同把路线三理解为"最终会取代路线二"。这种说法过于线性。cost volume 路线的核心优势,是 显式几何归纳偏置 :中心定位、深度假设、几何一致性都更可解释,也更便于分析错误模式;LRM 路线的核心优势,则是 全局上下文聚合与统一表示学习:更容易吞下对象、场景、长序列、多任务与大规模训练。两者的强项并不完全重合。


8.2 二者的真正边界

如果用一组抽象公式对比,可以写为:

Geometry-first: d ^ , μ ^ ← arg ⁡ max ⁡ d C ( x , d ) , G ^ ← D attr ( μ ^ , ⋅ ) , (13) \text{Geometry-first: } \hat d,\hat \mu \leftarrow \arg\max_d C(x,d), \qquad \hat{\mathcal G} \leftarrow D_{\text{attr}}(\hat \mu, \cdot), \tag{13} Geometry-first: d^,μ^←argdmaxC(x,d),G^←Dattr(μ^,⋅),(13)

LRM-style: Z ← A θ ( T ) , G ^ ← D ϕ ( Z ) . (14) \text{LRM-style: } Z \leftarrow A_\theta(\mathcal T), \qquad \hat{\mathcal G} \leftarrow D_\phi(Z). \tag{14} LRM-style: Z←Aθ(T),G^←Dϕ(Z).(14)

前者先显式求解几何,再补全属性;后者先进行 global token aggregation,再统一解码几何与属性。真正的分歧不在于谁更"3D-aware",而在于三维结构是被组织成中间变量,还是被吸收到隐藏状态。 这也是为什么两条路线完全可能互补:cost volume 可以向 LRM 提供更强的 geometry prior,LRM 则可以为 cost volume 之外的长范围信息整合提供更强的 global context。


8.3 未来更可能是深度融合

事实上,Long-LRM++ 已经在某种意义上说明了这点:当纯显式 color Gaussian 不足以保持细节时,它选择的不是回到传统 cost volume,而是引入 semi-explicit representation,让显式空间结构与轻量隐式解码协作。这提示我们,未来真正强的方案,未必是"pure geometry-first"或"pure token aggregation",而可能是:

  • 前端用更强的显式几何偏置稳定中心与结构;
  • 中端用 global token aggregation 跨长序列吸收上下文;
  • 后端用 semi-explicit / structured decoder 释放细节。
    这类混合系统,很可能才是 scene-level feed-forward reconstruction 的长期方向。这个结论属于方法论推断,但与现有论文的演进方向是一致的。

9. 大重建模型是否会成为空间基础模型的入口

我认为,在现阶段所有前馈式 3DGS 路线中,路线三看起来最接近"空间基础模型入口"。理由并不神秘:第一,它有统一 token 接口;第二,它与大规模数据训练天然兼容;第三,它可以从对象扩到场景、从短序列扩到长序列;第四,它更容易与生成模型、语言模型、世界模型在接口层对齐。原始 LRM 已经展示了"高容量 transformer + 大规模多视图数据"可学习广泛重建先验;GS-LRM、Long-LRM、Long-LRM++ 则把这种能力继续推进到 3DGS、wide-coverage 与 detail-preserving scene reconstruction.

但大模型化并不会自动解决几何正确性、细节保持、评价协议与训练资源的问题。Long-LRM++ 的出现,本身就是一个提醒:即便 long-context 已经建立,fine-detail preservation 仍会成为瓶颈;即便 Gaussian 仍然显式存在,几何推理也可能因为被隐藏在 token mixing 中而降低可解释性;即便模型具备 scene-level reconstruction 能力,评测协议也未必足以刻画其几何可信度与资产可用性。空间基础模型不是"更大的 backbone",而是"更统一的空间表征、推理与评测体系"。 路线三现在只是看上去离入口最近,而不是已经抵达终点。


10. 结语

路线三让前馈式 3DGS 从"小规模泛化器"开始走向"场景级大重建模型",但也把细节保持与可解释性问题重新推到了前台。

这句话之所以重要,是因为它准确概括了路线三在整个研究地图中的历史定位。GRM 证明了 pixel-aligned Gaussian prediction 可以被纳入全局 transformer aggregation;GS-LRM 用极简而干净的方式,定义了"large reconstruction model for 3DGS"的基本句法;Long-LRM 则把问题推进到 long sequence、wide-coverage、scene-level reconstruction 的新 regime;Long-LRM++ 进一步指出,scene-level 大模型并不天然保证 fine details,因而必须引入 semi-explicit representation 与更精细的 decoder 设计。换句话说,路线三真正改变的不是"模型大小",而是 多视图几何与场景信息的组织方式:它越来越多地被吸收到 token sequence 的 global aggregation 中,而不是显式写死在 cost volume 里。

也正因为如此,路线三既是一次能力扩张,也是一次问题前移。它把前馈式 3DGS 推向了更统一、更大规模、更接近空间基础模型的话语体系;但与此同时,它也重新暴露了"几何如何解释""细节如何保持""预算如何管理"这些更深的问题。顺着这条逻辑继续走,下一篇路线四------Pose-Free / Uncalibrated / Foundation Geometry------就会成为自然延伸:当 token aggregation 已经强到一定程度,field 接下来要问的,便不再只是"如何聚合 posed views",而是"能否在更弱标定、更开放输入、更基础化的几何前提下,继续完成空间重建"。


附:GRM / GS-LRM / Long-LRM / Long-LRM++ 统一对比

下表是对四篇主轴工作的结构化归纳,维度包括 input length、aggregation mechanism、representation、Gaussian decoding 方式、上下文范围、细节保持机制与主要局限。表中内容综合自四篇论文正文与摘要。

方法 输入长度 aggregation mechanism 表示形式 Gaussian 解码方式 上下文范围 细节保持机制 主要贡献 主要局限
GRM 4 views pure transformer encoder + transformer upsampler pixel-aligned color Gaussians per-view attribute map → unproject sparse multi-view, object-centric upsampler 恢复高频 首次把 pixel-aligned Gaussian 放进全局 transformer aggregation 仍偏短序列,场景覆盖有限
GS-LRM 2--4 views simple global self-attention transformer per-pixel Gaussians token 直接线性解码 per-pixel Gaussian object + scene, 但仍短序列 高分辨率 per-pixel 对齐 定义极简 LRM-for-3DGS 范式 长序列与大场景预算压力大
Long-LRM 32 views interleaved Mamba2 + Transformer per-pixel color Gaussians long-sequence token decoding + pruning wide-coverage scene-level token merging + Gaussian pruning 把 feed-forward 3DGS 推进到场景级 long-context reconstruction 细节容易变模糊,系统预算复杂
Long-LRM++ up to 64 views(部分设定更长) interleaved Mamba2 + Transformer + lightweight decoder semi-explicit feature Gaussians feature splatting → decoder rendering 高分辨率、wide-coverage、scene-level local attention + multi-space partitioning 正面解决 Long-LRM 的 fine-detail 模糊问题 系统更复杂,可解释性仍未完全回归

参考文献

  • 3D Gaussian Splatting for Real-Time Radiance Field Rendering :显式高斯表示与实时渲染的起点,也是所有 feed-forward 3DGS 路线试图摆脱"每场景优化"的基线背景。(arXiv)
  • pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction :前馈式 Gaussian reconstruction 的早期关键工作,强调 pairwise 输入、3D 概率分布与可微 Gaussian mean sampling。(arXiv)
  • MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images :路线二代表,明确以 plane-swept cost volume 提供几何线索,突出显式深度/中心定位。(arXiv)
  • DepthSplat: Connecting Gaussian Splatting and Depth :路线二进一步强化版,把 Gaussian reconstruction 与单/多视图深度估计紧密连接。(arXiv)
  • LRM: Large Reconstruction Model for Single Image to 3D :大重建模型前史,展示高容量 transformer + 大规模数据训练重建先验的可行性。(ICLR 会议录)
  • GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation :路线三奠基工作之一,把全局 transformer aggregation 与 pixel-aligned Gaussian decoding 结合起来。(arXiv)
  • GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting :用最简 transformer 句法定义 LRM-for-3DGS 的核心范式。(arXiv)
  • Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats :把问题推进到 32-view、long-sequence、scene-level wide-coverage reconstruction。(arXiv)
  • Long-LRM++: Preserving Fine Details in Feed-Forward Wide-Coverage Reconstruction :指出 long-context 之后的新主矛盾是 fine-detail preservation,并用 semi-explicit representation + lightweight decoder 给出修正方向。(arXiv)
相关推荐
sin°θ_陈2 小时前
前馈式3D Gaussian Splatting 研究地图(路线二):几何优先的前馈式 3DGS——前馈式 3DGS 如何重新拥抱多视图几何
深度学习·3d·webgl·三维重建·空间计算·3dgs·空间智能
阿酷tony14 小时前
Nano Banna 提示词:创意超逼真的3D商业风格产品图
人工智能·3d·gemini·图片生成
橙序员小站14 小时前
Harness Engineering:从 OpenClaw 看 AI 助理的基础设施建设
后端·aigc·openai
智算菩萨15 小时前
【OpenGL】10 完整游戏开发实战:基于OpenGL的2D/3D游戏框架、物理引擎集成与AI辅助编程指南
人工智能·python·游戏·3d·矩阵·pygame·opengl
GISer_Jing16 小时前
AI Agent操作系统架构师:Harness Engineer解析
前端·人工智能·ai·aigc
鲸鱼在dn21 小时前
干货!三种免费获得GPU算力的方式
gpu算力
陆业聪21 小时前
AI 时代最被低估的工程师技能:把需求写清楚
android·人工智能·aigc
GISer_Jing21 小时前
Claude Code架构深度解析:从核心文件到Harness的确定性控制体系
ai·架构·aigc
墨风如雪1 天前
Obsidian 写作环境搭建:这 6 款插件让我的博客管理效率翻倍
aigc