前馈式3D Gaussian Splatting 研究地图(总览篇):解构七大路线,梳理方法谱系,看懂关键分歧与未来趋势

总览导航:前馈式 3DGS 研究地图:七条路线背后的真正分歧是什么

  • [0. 导言:为什么前馈式 3DGS 值得单独写一篇总览](#0. 导言:为什么前馈式 3DGS 值得单独写一篇总览)
  • [1. 3DGS 为什么会走向前馈式](#1. 3DGS 为什么会走向前馈式)
    • [1.1 optimization-based 3DGS 的成功与边界](#1.1 optimization-based 3DGS 的成功与边界)
    • [1.2 前馈式 3DGS 的核心目标到底是什么](#1.2 前馈式 3DGS 的核心目标到底是什么)
    • [1.3 为什么"前馈式"不是实现细节,而是研究对象变化](#1.3 为什么“前馈式”不是实现细节,而是研究对象变化)
  • [2. optimization-based 与 feed-forward 的根本差别](#2. optimization-based 与 feed-forward 的根本差别)
    • [2.1 五个维度的系统比较](#2.1 五个维度的系统比较)
    • [2.2 数学上:求解器与映射器的差别](#2.2 数学上:求解器与映射器的差别)
    • [2.3 工程部署属性:为什么企业会偏爱前馈式](#2.3 工程部署属性:为什么企业会偏爱前馈式)
  • [3. 三轴 taxonomy:表示、几何推理、输入/任务](#3. 三轴 taxonomy:表示、几何推理、输入/任务)
    • [3.1 表示轴:Gaussian Map vs Gaussian Volume / Structured 3D Latent](#3.1 表示轴:Gaussian Map vs Gaussian Volume / Structured 3D Latent)
    • [3.2 几何推理轴:Gaussian center / placement 从何而来](#3.2 几何推理轴:Gaussian center / placement 从何而来)
      • [(1)概率深度 / 可微采样](#(1)概率深度 / 可微采样)
      • [(2)cost volume / plane sweeping](#(2)cost volume / plane sweeping)
      • [(3)depth foundation 注入 / foundation geometry / pointmap](#(3)depth foundation 注入 / foundation geometry / pointmap)
      • [(4)token-level global aggregation](#(4)token-level global aggregation)
      • [(5)structured latent reasoning 与 adaptive primitive detection](#(5)structured latent reasoning 与 adaptive primitive detection)
    • [3.3 输入与任务轴:posed、pose-free、single-image、generative coupling](#3.3 输入与任务轴:posed、pose-free、single-image、generative coupling)
  • [4. 七个方法簇总图:七条路线背后的真正分歧是什么](#4. 七个方法簇总图:七条路线背后的真正分歧是什么)
    • [4.1 路线一:像素对齐 / 概率式高斯图](#4.1 路线一:像素对齐 / 概率式高斯图)
    • [4.2 路线二:几何优先 / cost volume / depth-first](#4.2 路线二:几何优先 / cost volume / depth-first)
    • [4.3 路线三:LRM / Transformer / 大重建模型](#4.3 路线三:LRM / Transformer / 大重建模型)
    • [4.4 路线四:Pose-free / Uncalibrated / Foundation Geometry](#4.4 路线四:Pose-free / Uncalibrated / Foundation Geometry)
    • [4.5 路线五:Structured 3D Latents / Triplane / Gaussian Volume / Voxel-Aligned](#4.5 路线五:Structured 3D Latents / Triplane / Gaussian Volume / Voxel-Aligned)
    • [4.6 路线六:Adaptive Primitive Placement](#4.6 路线六:Adaptive Primitive Placement)
    • [4.7 路线七:Generative Coupling / 3D Asset Creation](#4.7 路线七:Generative Coupling / 3D Asset Creation)
  • [5. 从 2023 到 2026:关键拐点与演化逻辑](#5. 从 2023 到 2026:关键拐点与演化逻辑)
    • [5.1 拐点一:pixelSplat 让"前馈式 3DGS"成为成立的问题](#5.1 拐点一:pixelSplat 让“前馈式 3DGS”成为成立的问题)
    • [5.2 拐点二:MVSplat / DepthSplat 表明 center prediction 正回归为几何问题](#5.2 拐点二:MVSplat / DepthSplat 表明 center prediction 正回归为几何问题)
    • [5.3 拐点三:GRM / GS-LRM / Long-LRM 表明全局 token 聚合进入主舞台](#5.3 拐点三:GRM / GS-LRM / Long-LRM 表明全局 token 聚合进入主舞台)
    • [5.4 拐点四:PF3plat / SelfSplat / Splatt3R / AnySplat 让 pose-free 成为核心竞争维度](#5.4 拐点四:PF3plat / SelfSplat / Splatt3R / AnySplat 让 pose-free 成为核心竞争维度)
    • [5.5 拐点五:LaRa / VolSplat 表明 3D structured latent 开始取代纯 pixel-aligned 思路](#5.5 拐点五:LaRa / VolSplat 表明 3D structured latent 开始取代纯 pixel-aligned 思路)
    • [5.6 拐点六:Off The Grid 表明 primitive placement 从回归走向检测 / 分配](#5.6 拐点六:Off The Grid 表明 primitive placement 从回归走向检测 / 分配)
    • [5.7 拐点七:LGM 等工作说明前馈式 3DGS 正变成 3D 资产生成接口](#5.7 拐点七:LGM 等工作说明前馈式 3DGS 正变成 3D 资产生成接口)
  • [6. 当前最核心的三个瓶颈](#6. 当前最核心的三个瓶颈)
    • [6.1 几何可靠性仍未被根治](#6.1 几何可靠性仍未被根治)
    • [6.2 primitive placement 仍缺乏真正自由的 3D 组织机制](#6.2 primitive placement 仍缺乏真正自由的 3D 组织机制)
    • [6.3 评价协议正在分裂](#6.3 评价协议正在分裂)
  • [7. 为什么这些问题会自然导向下一阶段](#7. 为什么这些问题会自然导向下一阶段)
    • [7.1 geometry-first 与 foundation geometry 的深耦合](#7.1 geometry-first 与 foundation geometry 的深耦合)
    • [7.2 structured 3D latent 会成为统一接口](#7.2 structured 3D latent 会成为统一接口)
    • [7.3 confidence / uncertainty-aware Gaussian prediction](#7.3 confidence / uncertainty-aware Gaussian prediction)
    • [7.4 adaptive primitive placement 会成为关键分水岭](#7.4 adaptive primitive placement 会成为关键分水岭)
    • [7.5 feed-forward reconstruction 与 generative asset creation 会进一步耦合](#7.5 feed-forward reconstruction 与 generative asset creation 会进一步耦合)
    • [7.6 更统一的 benchmark 与 evaluation protocol](#7.6 更统一的 benchmark 与 evaluation protocol)
  • [8. 本系列文章接下来怎么展开](#8. 本系列文章接下来怎么展开)
    • [8.1 Part I:前馈式 3DGS 的起步范式:从像素到高斯](#8.1 Part I:前馈式 3DGS 的起步范式:从像素到高斯)
    • [8.2 Part II:前馈式 3DGS 的 depth-first 转向](#8.2 Part II:前馈式 3DGS 的 depth-first 转向)
    • [8.3 Part III:Transformer 如何重写前馈式 3DGS 的信息聚合方式](#8.3 Part III:Transformer 如何重写前馈式 3DGS 的信息聚合方式)
    • [8.4 Part IV:Pose-Free 前馈式 3DGS:从实验室输入走向真实世界图像集合](#8.4 Part IV:Pose-Free 前馈式 3DGS:从实验室输入走向真实世界图像集合)
    • [8.5 Part V:结构化潜空间与高斯体:前馈式 3DGS 的下一代表示基座](#8.5 Part V:结构化潜空间与高斯体:前馈式 3DGS 的下一代表示基座)
    • [8.6 Part VI:Adaptive Placement and Generative Coupling in Feed-Forward 3DGS](#8.6 Part VI:Adaptive Placement and Generative Coupling in Feed-Forward 3DGS)
  • [9. 结语](#9. 结语)
  • 总参考文献
    • [A. 综述、总览与研究地图](#A. 综述、总览与研究地图)
    • [B. 基础方法、前置谱系与桥接工作](#B. 基础方法、前置谱系与桥接工作)
    • [C. 前馈式 3DGS 主干论文池](#C. 前馈式 3DGS 主干论文池)
      • [C1. 路线一:像素对齐 / 概率式高斯图](#C1. 路线一:像素对齐 / 概率式高斯图)
      • [C2. 路线二:几何优先 / Cost Volume / Depth-first](#C2. 路线二:几何优先 / Cost Volume / Depth-first)
      • [C3. 路线三:LRM / Transformer / 大重建模型](#C3. 路线三:LRM / Transformer / 大重建模型)
      • [C4. 路线四:Pose-Free / Uncalibrated / Foundation Geometry](#C4. 路线四:Pose-Free / Uncalibrated / Foundation Geometry)
      • [C5. 路线五:Structured 3D Latents / Triplane / Gaussian Volume / Voxel-Aligned](#C5. 路线五:Structured 3D Latents / Triplane / Gaussian Volume / Voxel-Aligned)
      • [C6. 适应性放置 / 预算控制 / 语义扩展](#C6. 适应性放置 / 预算控制 / 语义扩展)
    • [D. 生成耦合、内容创建与后处理扩展](#D. 生成耦合、内容创建与后处理扩展)

系列文章全文导航(总览篇)
Part I:前馈式 3DGS 的起步范式:从像素到高斯
[Part II:前馈式 3DGS 的 depth-first 转向](#Part II:前馈式 3DGS 的 depth-first 转向)
[Part III:Transformer 如何重写前馈式 3DGS 的信息聚合方式](#Part III:Transformer 如何重写前馈式 3DGS 的信息聚合方式)
[Part IV:Pose-Free 前馈式 3DGS:从实验室输入走向真实世界图像集合](#Part IV:Pose-Free 前馈式 3DGS:从实验室输入走向真实世界图像集合)
[Part V:结构化潜空间与高斯体:前馈式 3DGS 的下一代表示基座](#Part V:结构化潜空间与高斯体:前馈式 3DGS 的下一代表示基座)
[Part VI:Adaptive Placement and Generative Coupling in Feed-Forward 3DGS](#Part VI:Adaptive Placement and Generative Coupling in Feed-Forward 3DGS)


0. 导言:为什么前馈式 3DGS 值得单独写一篇总览

3D Gaussian Splatting 在 2023 年由 Kerbl 等工作确立为一个极强的场景表示与实时渲染范式:它以各向异性 3D Gaussian 作为显式 primitive,通过可微 splatting 与 density control,在 scene-specific optimization 设定下同时拿到了高视觉质量与实时渲染能力。

也正因为它太成功,问题很快不再是"能不能把一个场景优化出来",而是"能不能把 3D Gaussian 当作一种可学习、可泛化、可批量生成 的三维资产接口"。这正是 pixelSplat 之后整个 feed-forward 方向爆发的根因。(arXiv)

形式上,optimization-based 3DGS 与 feed-forward 3DGS 的差别可写为两类不同的问题:

G ^ s = arg ⁡ min ⁡ G ∑ i = 1 N s L render ! ( R ( G , P i ) , I i ) + λ , Ω ( G ) , (1) \hat{\mathcal G}s= \arg\min{\mathcal G} \sum_{i=1}^{N_s} \mathcal L_{\text{render}} !\left( R(\mathcal G,\mathbf P_i),\mathbf I_i \right) + \lambda ,\Omega(\mathcal G), \tag{1} G^s=argGmini=1∑NsLrender!(R(G,Pi),Ii)+λ,Ω(G),(1)

其中 G \mathcal G G 是某一个场景 s s s 的高斯集合, I i , P i \mathbf I_i,\mathbf P_i Ii,Pi 分别是第 i i i 张图像及其相机参数, R ( ⋅ ) R(\cdot) R(⋅) 是 splatting renderer, Ω \Omega Ω 表示 density control、正则项或结构先验。这个式子本质上是逐场景求解

而前馈式 3DGS 追求的是:

G ^ = F θ ( I i , P i ? ∗ i = 1 N ) , or ( G ^ , P ^ ∗ 1 : N ) = F θ ( I i i = 1 N ) , (2) \hat{\mathcal G}= F_\theta \big( {\mathbf I_i,\mathbf P_i?}*{i=1}^{N} \big), \qquad \text{or} \qquad (\hat{\mathcal G},\hat{\mathbf P}*{1:N})= F_\theta({\mathbf I_i}_{i=1}^{N}), \tag{2} G^=Fθ(Ii,Pi?∗i=1N),or(G^,P^∗1:N)=Fθ(Iii=1N),(2)

即学习一个跨场景映射 F θ F_\theta Fθ,一次前向就给出 Gaussian field,甚至连 pose 一并预测。式 ( 2 ) (2) (2) 不是式 ( 1 ) (1) (1) 的工程加速版,而是把"场景重建"重写成了"3D 表示生成 "问题。(arXiv)

本文的中心论点是:前馈式 3DGS 的发展,不是单线提速,而是围绕五个问题不断重排方法结构:高斯从哪里来、高斯如何放置、多视图信息怎样对齐、是否需要显式位姿、能否成为可生成可编辑可分发的 3D 资产。

pixelSplat、MVSplat、GRM、SelfSplat、LaRa、VolSplat、Off The Grid、LGM 之所以值得被串成一条链,不是因为它们按年份接力,而是因为它们在不断上移整个 field 的主问题。(arXiv)


1. 3DGS 为什么会走向前馈式

1.1 optimization-based 3DGS 的成功与边界

3DGS 的原始成功来自一个非常强的工程折中:用显式高斯替代隐式 MLP 场表示,使表示、优化与渲染三者之间取得了新平衡。它在多视图重建与 novel view synthesis 上表现出极高的训练效率和实时渲染能力,但它依然需要针对每个场景单独优化 ,对输入 pose、初始化点云以及场景级 photometric fitting 具有较强依赖。换句话说,它解决的是"如何把这个 场景优化好",而不是"如何从任意 输入快速生成 3D 资产"。(arXiv)

工程上这意味着几个天然上限。第一 ,scene-specific pipeline 难以支撑大规模批量资产生产。第二 ,跨场景泛化能力不在问题定义之内。第三 ,部署链路更像"求解器"而不是"推理器",这与内容生产平台、实时上云、交互式 3D AIGC、移动端生成等需求并不完全匹配。(arXiv)


1.2 前馈式 3DGS 的核心目标到底是什么

前馈式 3DGS 的核心目标,不是把优化时间从几十分钟压到几秒,而是学习一个从图像集合到 Gaussian field 的通用映射函数 。pixelSplat 已经明确把这个问题写成"从图像对直接预测可渲染 3D Gaussian primitives";MVSplat 进一步把它扩展到 sparse multi-view posed 输入;GRM、GS-LRM、Long-LRM 则把它推向"大重建模型"叙事。(arXiv)

因此,前馈式 3DGS 与 generalized reconstruction / generalized novel view synthesis 的关系不是"相关",而是"同源"。本质上,它是 generalized 3D reconstruction 在 explicit Gaussian representation 上的落地形态:

一方面继承 generalized radiance field 的目标,即跨场景泛化;

另一方面继承 3DGS 的优势,即显式 primitive、实时渲染、资产可导出。(arXiv)


1.3 为什么"前馈式"不是实现细节,而是研究对象变化

如果研究对象还是"单场景最优拟合",那么快一点慢一点只是工程实现问题;但一旦研究对象变成"从输入直接生成 3D 表示",问题就会立刻切换成 representation learning、geometric prior、cross-view aggregation、pose relaxation、uncertainty estimation、asset usability 等更高层的结构性问题。(arXiv)

这也是为什么 feed-forward 3DGS 值得单独建立方法地图。 真正的分歧不在于谁更快、谁更准,而在于:

  • 用什么 representation 承载高斯;
  • 用什么机制决定 Gaussian center;
  • 多视图信息在 2D、3D 还是 latent 空间对齐;
  • pose 是输入前提、联合预测,还是被 foundation geometry 吸收;
  • 输出是为了 reconstruction,还是为了 3D asset creation。

2. optimization-based 与 feed-forward 的根本差别

2.1 五个维度的系统比较

维度 optimization-based 3DGS feed-forward 3DGS
训练范式 每个场景单独优化 G \mathcal G G 学习跨场景映射 F θ F_\theta Fθ
推理方式 需要 per-scene fitting 一次前向直接输出 Gaussian field
表示生成方式 初始化 + density control + iterative refinement 直接回归 / 采样 / 解码 Gaussian primitives
泛化能力 非主要目标 核心目标之一
资产生产属性 更像求解器 更像生成接口或重建引擎

这个表并不意味着后者必然替代前者。optimization-based 方法在几何精修、场景特化质量、可解释的 per-scene control 上仍然极强;feed-forward 方法则在吞吐、部署、批量化、与生成模型耦合方面更有平台价值。(arXiv)


2.2 数学上:求解器与映射器的差别

optimization-based 3DGS 的核心是:

Solve G for one scene . (3) \text{Solve }\mathcal G \text{ for one scene}. \tag{3} Solve G for one scene.(3)

feed-forward 3DGS 的核心则是:

Learn F θ : X → Y , X = images, poses? , Y = Gaussian sets . (4) \text{Learn }F_\theta:\mathcal X \rightarrow \mathcal Y, \quad \mathcal X={\text{images, poses?}}, \quad \mathcal Y={\text{Gaussian sets}}. \tag{4} Learn Fθ:X→Y,X=images, poses?,Y=Gaussian sets.(4)

看似只是把优化变量挪进了网络,但本质上已经变成了函数逼近问题 。于是,数据分布、out-of-domain 泛化、multi-view token aggregation、pose uncertainty、latent capacity、decoder inductive bias 全部进入主舞台。GRM、GS-LRM、Long-LRM 之所以被视作关键节点,正是因为它们把这个函数逼近问题大模型化了。(arXiv)


2.3 工程部署属性:为什么企业会偏爱前馈式

工程上,前馈式方法的价值非常直接:

它更适合被封装成 API、SDK、批处理服务或内容生产流水线;

更容易与 upstream 的图像采集、SLAM、foundation depth、multi-view diffusion,以及 downstream 的编辑、压缩、分发接口耦合;

更容易形成统一的"输入图像 → 输出资产"的 产品心智。

LGM 已经明显体现了这一点:它不把目标限定在 reconstruction,而是直接面向 high-resolution 3D content creation;GS-LRM 也明确展示了在 downstream 3D generation 任务中的应用潜力。(arXiv)


3. 三轴 taxonomy:表示、几何推理、输入/任务

这一章是全文的理论中枢。需要明确的是,前馈式 3DGS 的方法分歧不是一维序列,而是至少三个正交轴上的组合。


3.1 表示轴:Gaussian Map vs Gaussian Volume / Structured 3D Latent

最早一批方法默认采用 pixel-aligned / map-like Gaussian prediction 。其典型写法是:每个输入像素或每个像素位置上的若干候选,输出一组高斯参数,再通过深度或概率采样把这些 2D 位置 lift 到 3D。pixelSplat 的"概率式 3D 采样"、MVSplat 的 per-view Gaussian regression、GRM / GS-LRM 的 per-pixel Gaussian decoding,本质上都属于这一族。(arXiv)

形式上,可写为:

g u , v ( k ) = ϕ θ ! ( f u , v ( 1 : N ) ) , μ u , v ( k ) = Π − 1 ( u , v , d u , v ( k ) ; P ) , (5) g_{u,v}^{(k)}= \phi_\theta!\big(\mathbf f_{u,v}^{(1:N)}\big), \qquad \mu_{u,v}^{(k)}= \Pi^{-1}(u,v,d_{u,v}^{(k)};\mathbf P), \tag{5} gu,v(k)=ϕθ!(fu,v(1:N)),μu,v(k)=Π−1(u,v,du,v(k);P),(5)

其中 f u , v ( 1 : N ) \mathbf f_{u,v}^{(1:N)} fu,v(1:N) 是多视图聚合后的像素特征, d u , v ( k ) d_{u,v}^{(k)} du,v(k) 是深度或深度分布采样值, Π − 1 \Pi^{-1} Π−1 表示反投影, μ \mu μ 是 Gaussian center。

这类表示的优点是简单、可扩展、天然兼容图像 backbone;但局限也非常清楚:

它把高斯组织强绑定到输入图像采样格上,导致 primitive placement 带有先天 2D 偏置。VolSplat 与 Off The Grid 后续几乎是正面冲着这一点来的:前者改为 voxel-aligned prediction,后者直接把 primitive placement 从规则网格回归改成检测/分配。(arXiv)

为什么 pixel-aligned 是起点而不是终点?

因为 pixel-aligned 最容易把 2D 视觉模型改造成 Gaussian predictor,但它并不天然等价于"好的 3D 组织方式"。输入视角数变化、遮挡、多视图不一致、低纹理区,以及 view-dependent density bias,都会暴露这种组织方式的刚性。

VolSplat 明确把这类问题概括为 pixel alignment 的结构性局限;Off The Grid 则进一步指出规则网格,primitive placement 在质量与效率上都受限。(arXiv)


与之相对的是 Gaussian Volume / voxel / triplane / structured latent 一类表示。这里的关键不再是"每个像素吐出几个高斯",而是先构建某种结构化 3D latent,再由 latent 解码出高斯。LaRa 直接把场景表示为 Gaussian Volumes;VolSplat 采用 voxel-aligned Gaussian prediction;TGS 通过 hybrid triplane-Gaussian intermediate representation 来规避直接回归无结构高斯属性的困难。(arXiv)

形式上可写为:

Z ∈ R X × Y × Z × C or T = T x y , T x z , T y z , (6) \mathbf Z \in \mathbb R^{X\times Y\times Z\times C} \quad \text{or} \quad \mathbf T = {T^{xy},T^{xz},T^{yz}}, \tag{6} Z∈RX×Y×Z×CorT=Txy,Txz,Tyz,(6)

G ^ = D gs ( Z ) or G ^ = D gs ( T , P ) , (7) \hat{\mathcal G}= D_{\text{gs}}(\mathbf Z) \quad \text{or} \quad \hat{\mathcal G}= D_{\text{gs}}(\mathbf T,\mathcal P), \tag{7} G^=Dgs(Z)orG^=Dgs(T,P),(7)

其中 Z \mathbf Z Z 是体素化 latent, T \mathbf T T 是 triplane latent, P \mathcal P P 可为点云、候选位置或 queries。式 ( 7 ) (7) (7) 的意义在于:高斯不再是网络直接回归的原子输出,而是 latent 解码的结果。

工程上这意味着表示的 3D 交互能力上限被抬高了。因为 structured latent 更容易承载全局一致性、局部邻域、密度自适应、编辑接口,甚至后续的 generative control。也正因为如此,structured latent 与 adaptive placement 往往被视为新阶段的两个关键入口。(arXiv)

但需要看到,structured latent 并不是 free-form 3D Gaussian organization 的终点:它只是把 primitive 的生成从"像素直接回归"前移到了"先构造规则化 3D 中间场,再解码高斯",因此虽然提升了多视图一致性与局部邻域建模能力,却也引入了新的结构性代价------第一,体素或 triplane 本身带来离散化偏置,其空间分辨率、显存占用与细节恢复能力之间存在刚性折中;第二,latent grid 只是把锚点从 2D pixel grid 改成了 3D regular grid,本质上仍未完全解决 primitive placement 的自由度问题,高斯仍然常常被限制在预定义结构附近;第三,latent-to-Gaussian decoder 会把几何恢复误差与表示压缩误差叠加到一起,使薄结构、尖锐边界、遮挡交界和高频局部几何更容易被平滑化;第四,这类方法通常改善了"组织能力",但并不自动保证"几何可辨识性"和"最优表示预算分配",因此它更像是为后续 adaptive placement、uncertainty-aware prediction 和 asset-level control 提供了更好的底座,而不是单独完成了这些问题的最终解。


3.2 几何推理轴:Gaussian center / placement 从何而来

前馈式 3DGS 的核心难点并不只是"预测颜色、尺度、opacity",而是Gaussian center 从哪里来。不同路线的真正分歧首先发生在这里。

(1)概率深度 / 可微采样

pixelSplat 的关键贡献之一,是不直接输出单点深度,而是预测稠密 3D 概率分布,并从中采样 Gaussian centers,以缓解 sparse、局部支持表示下的 local minima 问题。换句话说,它把"高斯位置"变成了一个带不确定性的采样问题,而不是点估计问题。(arXiv)

(2)cost volume / plane sweeping

MVSplat 明确把 Gaussian center localization 重写为 multi-view geometry estimation:通过 plane sweeping 构建 cost volume,让多视图匹配相似性直接服务于 depth/center 预测。DepthSplat 又把这条线进一步推进到"Gaussian splatting 与 depth estimation 的双向耦合"。(arXiv)

为什么 cost volume / depth 又回来了?

因为一旦目标从"拟合这个场景"转为"泛化地输出可信几何",appearance-only 的监督很难稳定约束 center prediction。高斯渲染可容忍一定几何偏差,但 generalized reconstruction 不行。于是 depth、cost volume、monocular depth feature、foundation geometry 这些曾经在 MVS / depth estimation 中成熟的几何工具重新回到中心位置。DepthSplat 几乎是用方法名字直接宣告了这一拐点。(arXiv)

(3)depth foundation 注入 / foundation geometry / pointmap

在 pose-free 与真实世界输入设定下,几何问题更难。PF3plat 使用预训练 monocular depth estimation 和 visual correspondence 先做 coarse alignment,再细化 pose 与 depth;Splatt3R 则建立在 MASt3R 这一类 foundation 3D geometry 重建器之上,把 pointmap/point cloud 扩展为 Gaussian primitives;AnySplat 进一步尝试从 unconstrained unposed collections 中统一预测高斯与相机。(arXiv)

(4)token-level global aggregation

GRM、GS-LRM、Long-LRM 的重点不是显式几何体积,而是把多视图像素 token 送入强全局聚合器,再从 token 序列解码高斯。这里的几何不是被 cost volume 显式写出来,而是被 token interaction 吸收入模型参数与中间表征中。GRM 用 transformer 融合多视图像素并输出 pixel-aligned Gaussians;GS-LRM 用极简 transformer 架构直接解码 per-pixel Gaussian parameters;Long-LRM 则把序列长度扩展到 32 幅高分辨率输入,面向 wide-coverage scene-level reconstruction。(arXiv)

(5)structured latent reasoning 与 adaptive primitive detection

LaRa 和 VolSplat 的共通点,是把"几何一致性"更多前移到 3D structured latent 中解决;Off The Grid 则指出,即使 latent 与 aggregation 都足够强,如果 primitive 仍被绑在 rigid grid 上,最终输出仍会受限,因此需要让高斯位置从"回归到格点"转向"检测到连续空间位置"。(arXiv)


3.3 输入与任务轴:posed、pose-free、single-image、generative coupling

第三个轴是输入假设与任务设定。它决定了模型面对的是哪一类现实约束。

(1)已知位姿稀疏视图

pixelSplat、MVSplat、GRM、GS-LRM、Long-LRM 大多以 posed sparse views 为前提。这类设定更利于隔离表示与几何问题,是 field 早期快速推进的主舞台。(arXiv)

(2)无位姿 / 非标定图像集合

PF3plat、SelfSplat、Splatt3R、AnySplat 则把 pose 作为需要被放松甚至联合求解的变量。这里"前馈式"的难度被显著抬高,因为高斯位置误差、相机位姿误差、多视图对应误差会相互耦合。(arXiv)

为什么 pose-free 是真实世界约束的必然结果?

因为真实采集流并不总是提供干净、可靠、同步的相机外参。对 casually captured collections、互联网图片、对象拍摄、历史图像、混合相机集合而言,posed input 不是默认条件,而是昂贵前提。PF3plat、SelfSplat、Splatt3R、AnySplat 之所以重要,不是因为它们"多做了一件事",而是因为它们把 3DGS 从实验室标定设定推向了真实世界输入。(arXiv)

(3)单图对象重建

TGS 与 LGM 代表另一条重要轴线:输入可以退化为单图、text prompt 或 diffusion 生成的 multi-view images,输出目标更偏 3D asset creation 而非严格 reconstruction。TGS 用 triplane-Gaussian hybrid 表示实现单图前馈 3D reconstruction;LGM 则进一步把 multi-view Gaussian features 与 multi-view diffusion 管线耦合,面向 high-resolution 3D content creation。(arXiv)

(4)generative coupling

一旦输入来自 text-to-image 或 image-to-multi-view diffusion,评价目标就会从"还原某个真实场景"转为"生成一个可用的 3D 资产"。这也是 generation coupling 改变评价标准的根本原因:geometry fidelity 不再只对齐真实 GT,而开始与 editability、consistency、asset portability、prompt alignment 一起成为目标。LGM 在这一点上具有明显代表性。(arXiv)


4. 七个方法簇总图:七条路线背后的真正分歧是什么

4.1 路线一:像素对齐 / 概率式高斯图

主矛盾 :如何在不做 per-scene optimization 的前提下,直接从输入图像得到可渲染高斯。
代表节点:pixelSplat。

pixelSplat 的核心思想是:不要把 3D Gaussian 看成必须通过优化长出来的实体,而可以把它们作为网络一次输出的显式 primitive;但为了缓解直接回归 center 的不稳定性,它用概率分布与采样来决定位置。优势是问题被首次明确化,前馈式 3DGS 因而作为独立研究方向成立。局限是 pixel-aligned 的组织方式仍很强,几何一致性更多依赖隐式学习而不是显式约束。它的结构性意义在于:把"前馈地产生高斯"这件事合法化了。 (arXiv)


4.2 路线二:几何优先 / cost volume / depth-first

主矛盾 :高斯可以预测,但高斯中心不够可信。
代表节点:MVSplat、DepthSplat。

这一路线把主要难题从 appearance prediction 移回 geometry estimation。MVSplat 用 plane sweeping cost volume 显式建模跨视图匹配;DepthSplat 更进一步把 depth estimation 与 Gaussian splatting 做成双向促进。优势是 center localization 更有几何抓手;局限是仍可能受 posed sparse-view 假设与 depth 误差传播制约。它对下一阶段的意义是:field 开始承认"高斯中心预测"其实首先是几何问题。 (arXiv)


4.3 路线三:LRM / Transformer / 大重建模型

主矛盾 :局部几何足够了,但跨视图全局聚合能力不足。
代表节点:GRM、GS-LRM、Long-LRM。

这一路线把问题定义为 sequence-to-sequence 的大规模映射:多视图图像 token 经过 transformer 或 hybrid sequence model 聚合,再直接解码为 Gaussians。GRM 明确提出 large Gaussian reconstruction model;GS-LRM 用更简洁的 transformer 直接从 2--4 posed sparse images 解码高斯;Long-LRM 把输入规模扩展到长序列与大场景。优势是全局信息整合能力强、扩展性好;局限是几何可靠性可能仍被"token 会自己学会几何"这一假设束缚。其转折意义在于:前馈式 3DGS 开始大模型化。 (arXiv)


4.4 路线四:Pose-free / Uncalibrated / Foundation Geometry

主矛盾 :真实世界输入往往没有干净 pose。
代表节点:PF3plat、SelfSplat、Splatt3R、AnySplat。

PF3plat 借助 depth foundation 与 correspondence 做 coarse-to-fine 的 pose/depth refinement;SelfSplat 试图在 3D prior-free 设定下自监督地让 pose 与 3D reconstruction 互相增益;Splatt3R 把 foundation geometry 方法 MASt3R 变成 Gaussian predictor 的底座;AnySplat 则朝 unconstrained multi-view collections 进一步前进。优势是问题设定更接近真实世界;局限是 pose、geometry、appearance 三者误差耦合更强。其结构性意义在于:pose-free 不再是附加条件,而是核心竞争维度。 (arXiv)


4.5 路线五:Structured 3D Latents / Triplane / Gaussian Volume / Voxel-Aligned

主矛盾 :即便有了好的几何回归,primitive 仍缺少真正 3D 的组织结构。
代表节点:TGS、LaRa、VolSplat。

TGS 用 triplane-Gaussian 混合表示来处理单图对象重建中的"无结构高斯难直接回归"问题;LaRa 用 Gaussian Volumes 与局部-全局联合注意力增强 large-baseline reconstruction;VolSplat 则更明确地把 pixel-aligned paradigm 改写为 voxel-aligned prediction。优势是 3D 结构感更强、一致性更好、可控性更高;局限是 latent 设计、体素成本与解码复杂度上升。其转折意义在于:高斯开始被视为 latent 解码结果,而非像素直接吐出的末端参数。 (arXiv)


4.6 路线六:Adaptive Primitive Placement

主矛盾 :primitive placement 不应被刚性网格绑死。
代表节点:Off The Grid。

Off The Grid 直接把 primitive placement 从规则像素网格上的密集回归,改成连续空间中的 sub-pixel primitive detection。优势是可以用更少 primitives 放到更该放的位置;局限是检测式训练、分配策略、稳定性与通用性仍需时间验证。其结构性意义非常大:高斯位置预测第一次明确从"回归深度"转向"检测/分配 primitive"。 (arXiv)


4.7 路线七:Generative Coupling / 3D Asset Creation

主矛盾 :输出的不只是可渲染场,而是可复用 3D 资产。
代表节点:LGM,以及与 GS-LRM / PF-LRM 等的耦合趋势。

LGM 把多视图 Gaussian features 与上游 multi-view image generation 耦合起来,直接服务高分辨率 3D 内容生成;GS-LRM、PF-LRM 则证明 reconstruction model 可以成为 downstream generation 的几何/表示接口。优势是离产品化和内容生产更近;局限是评价标准从真实重建转向"资产可用性"后,benchmark、几何 GT、编辑协议都会变得复杂。其转折意义在于:前馈式 3DGS 开始从重建器变成资产生成接口。 (arXiv)


5. 从 2023 到 2026:关键拐点与演化逻辑

5.1 拐点一:pixelSplat 让"前馈式 3DGS"成为成立的问题

在 pixelSplat 之前,3DGS 更多是一个 scene optimization 表示;在 pixelSplat 之后,"从图像对一次前向产生 Gaussian splats"第一次被系统地写成可训练、可评测、可推广的问题。这个拐点的结构性意义,不在于它一定比优化法更强,而在于它把 field 的研究对象从 per-scene solver 转成了 generalizable predictor。(arXiv)

5.2 拐点二:MVSplat / DepthSplat 表明 center prediction 正回归为几何问题

MVSplat 用 cost volume 显式地把 center localization 绑定回多视图几何;DepthSplat 则更进一步把 Gaussian splatting 与 depth estimation 连接起来。换句话说,field 在经历第一轮"可以前馈地产生高斯"之后,很快意识到真正卡住质量上限的不是 renderer,而是 geometry reliability。(arXiv)

5.3 拐点三:GRM / GS-LRM / Long-LRM 表明全局 token 聚合进入主舞台

GRM、GS-LRM、Long-LRM 的共同点,是都把 feed-forward 3DGS 提升为大规模序列建模问题。这里的演化逻辑不是"换个 backbone",而是从局部像素归纳偏置,转向大模型式全局上下文整合。Long-LRM 尤其说明:当输入数量与视野覆盖扩大后,问题已经不再只是 sparse-view object reconstruction,而是 scene-level long-context reconstruction。(arXiv)

5.4 拐点四:PF3plat / SelfSplat / Splatt3R / AnySplat 让 pose-free 成为核心竞争维度

这一拐点的意义在于,field 不再把 posed input 当成理所当然。PF3plat、SelfSplat、Splatt3R、AnySplat 都在不同层面推进 pose relaxation:有的依赖 depth/correspondence foundation,有的依赖 self-supervision,有的依赖 foundation geometry,有的试图统一预测相机与高斯。问题重心由"如何更好地重建已知姿态输入"转为"如何在不完美输入下仍稳定地产生可信 3D"。(arXiv)

5.5 拐点五:LaRa / VolSplat 表明 3D structured latent 开始取代纯 pixel-aligned 思路

LaRa 的 Gaussian Volumes 与 VolSplat 的 voxel-aligned prediction 共同说明:纯 pixel-aligned paradigm 不是终局。高斯不仅需要被"预测出来",还需要被"组织起来"。当表示改成 structured 3D latent,模型才更有机会处理 multi-view consistency、density adaptation、编辑接口以及更强的 3D inductive bias。(arXiv)

5.6 拐点六:Off The Grid 表明 primitive placement 从回归走向检测 / 分配

这可能是 2025 以后最值得注意的信号之一。过去大家默认"只要深度更准,高斯位置就会更准";Off The Grid 指出这还不够,因为 primitive placement 的组织机制本身就有问题。于是,位置不再只是通过反投影得到,而是成为一个可学习的、可分配的、连续空间中的检测问题。(arXiv)

5.7 拐点七:LGM 等工作说明前馈式 3DGS 正变成 3D 资产生成接口

LGM 的目标从一开始就不是严格意义上的真实场景重建,而是高分辨率 3D 内容创建。这意味着 feed-forward 3DGS 已经和 generative modeling、multi-view diffusion、3D asset pipeline 发生深耦合。此时评价标准、产品形态、数据协议都开始变化:我们不再只问它 render 得像不像,而要问它是否可编辑、可导出、可复用、可分发。(arXiv)


6. 当前最核心的三个瓶颈

6.1 几何可靠性仍未被根治

形式上,渲染损失对几何误差常常是非对称敏感的:

L render = ∑ r ℓ ! ( C ( r ; G ) , , C ⋆ ( r ) ) , (8) \mathcal L_{\text{render}}= \sum_{\mathbf r} \ell!\left( C(\mathbf r;\mathcal G),, C^\star(\mathbf r) \right), \tag{8} Lrender=r∑ℓ!(C(r;G),,C⋆(r)),(8)

但存在不同的 G \mathcal G G 可以给出接近的像素重建,这意味着 appearance supervision 与 geometry correctness 之间并非一一对应。于是,高斯中心误差、深度不稳定、遮挡区误配、低纹理区域退化、跨视图不一致,仍是最根本瓶颈。MVSplat、DepthSplat、PF3plat、SelfSplat 的存在本身就说明这件事还远未解决。(arXiv)

为什么它重要?因为 geometry 错了,渲染可能暂时还能"看起来对",但编辑、测量、分发、下游生成耦合都会失真。为什么它难?因为 generalized feed-forward 设定下,几何误差来自多源:图像内容、跨视图对应、位姿误差、表示容量、placement 机制,彼此耦合。(arXiv)

6.2 primitive placement 仍缺乏真正自由的 3D 组织机制

pixel-aligned 的强项是简洁,弱项也是简洁。它天然继承 2D 网格,便于工程实现,但高斯密度、布局与视角分布强耦合。VolSplat 已经明确指出 pixel-aligned prediction 会带来 view-biased density 与 alignment error;Off The Grid 则指出 rigid grid primitive placement 限制质量与效率。(arXiv)

为什么这件事重要?因为表示不是中性的。高斯怎么放,直接决定它能不能承载细结构、遮挡边界、跨视图一致性、密度自适应和可压缩性。为什么这件事难?因为一旦摆脱规则网格,模型就必须同时学会:

  • 放多少个 primitive;
  • 每个 primitive 放在哪里;
  • 如何避免塌缩、冗余与不稳定;
  • 如何与 renderer、loss、pose、latent 共同训练。
为什么 structured latent 与 adaptive placement 是新阶段?

因为它们分别对应两个更本质的问题:

  • structured latent 解决"高斯如何被组织";
  • adaptive placement 解决"高斯为什么在这里"。

前者提供 3D 结构化表达底座,后者提供更自由的 primitive allocation 机制。两者一旦结合,前馈式 3DGS 才可能真正从"像素提升到三维"。(arXiv)


6.3 评价协议正在分裂

当前 feed-forward 3DGS 的 evaluation protocol 正明显分裂成至少三组目标:

  1. reconstruction-oriented:关注 posed / pose-free NVS 与 geometry;
  2. generation-oriented:关注 prompt alignment、asset quality、editability;
  3. deployment-oriented:关注 speed、memory、primitive count、可导出性。

LGM 的评价目标与 MVSplat、SelfSplat、AnySplat 就已经不是完全同一问题;pose-aware 与 pose-free 方法之间的 benchmark 也并不天然可比。(arXiv)

为什么重要?因为评价协议决定研究方向会朝哪里收敛。为什么难?因为一旦 feed-forward 3DGS 同时服务 reconstruction 与 asset creation,单一 PSNR/SSIM/LPIPS 已无法覆盖 geometry、rendering、speed、asset usability 四类目标。

为什么 generation coupling 会改变评价标准?

因为此时输出不再只是"对 GT 视图的近似器",而是"用于编辑、再生成、分发和交互的资产中间件"。于是,指标必须从 image fidelity 扩展到 asset-level usability。LGM 代表的正是这种评价范式迁移。(arXiv)


7. 为什么这些问题会自然导向下一阶段

7.1 geometry-first 与 foundation geometry 的深耦合

未来不是简单重复 cost volume,而是把 depth foundation、pointmap foundation、correspondence foundation 更深地嵌入 Gaussian prediction。Splatt3R、PF3plat、DepthSplat、MonoSplat 都已经说明 foundation geometry 在 feed-forward 3DGS 中不是辅助模块,而可能成为几何底座。(arXiv)


7.2 structured 3D latent 会成为统一接口

LaRa、VolSplat、TGS 指向同一个判断:structured 3D latent 更适合作为统一接口,因为它同时兼容 reconstruction、generation、editing、compression 与 downstream reasoning。未来更值得期待的不是"再多吐一点像素对齐高斯",而是把 Gaussian field 变成某种可查询、可解码、可编辑的 latent-backed asset。(arXiv)


7.3 confidence / uncertainty-aware Gaussian prediction

pixelSplat 的概率采样、PF3plat 的 geometry confidence,其实都在指向同一个趋势:模型需要显式知道"哪些高斯可信,哪些不可信"。这可能进一步催生 uncertainty-aware placement、confidence-guided pruning、multi-hypothesis geometry decoding。(arXiv)

形式上,可考虑把每个高斯写成带置信度的 random primitive:

g i = ( μ i , Σ i , α i , c i , ρ i ) , ρ i ∈ [ 0 , 1 ] , (9) g_i= (\mu_i,\Sigma_i,\alpha_i,\mathbf c_i,\rho_i), \qquad \rho_i \in [0,1], \tag{9} gi=(μi,Σi,αi,ci,ρi),ρi∈[0,1],(9)

其中 ρ i \rho_i ρi 表示几何或放置置信度。工程上这意味着高斯不再只是参数点,而是带可信性语义的资产单元。


7.4 adaptive primitive placement 会成为关键分水岭

Off The Grid 只是一个起点。未来真正的分歧很可能不再是"谁的 backbone 更大",而是谁能更合理地决定:在哪些位置生成 primitive、需要多少 primitive、它们如何随着 scene complexity 自适应变化。(arXiv)


7.5 feed-forward reconstruction 与 generative asset creation 会进一步耦合

GS-LRM、PF-LRM、LGM 已经表明 reconstruction model 与 generation model 之间的边界正在变薄。未来更可能的形态是:一个统一的 3D 表示接口,同时服务真实输入重建、单图生成、多视图生成、编辑与分发。(arXiv)


7.6 更统一的 benchmark 与 evaluation protocol

下一阶段一定需要更统一的 benchmark:既评 image-space fidelity,也评 geometry consistency、pose robustness、primitive efficiency、asset usability。否则 reconstruction-oriented 与 generation-oriented 研究将继续在不同 protocol 上各自最优。(arXiv)


8. 本系列文章接下来怎么展开

8.1 Part I:前馈式 3DGS 的起步范式:从像素到高斯

这一篇将专门讲 pixelSplat 及其相关早期思路,回答:

  • 为什么最早的方法几乎都走 pixel-aligned;
  • 概率式 center sampling 的数学直觉是什么;
  • 它为什么成立,又为什么不能成为终点。(arXiv)

8.2 Part II:前馈式 3DGS 的 depth-first 转向

这一篇聚焦 MVSplat、DepthSplat 以及 geometry-first 变体,回答:

  • 为什么高斯中心定位最终会退化成几何问题;
  • cost volume、monocular depth feature、foundation depth 各自承担什么角色;
  • geometry supervision 如何改变 Gaussian prediction。(arXiv)

8.3 Part III:Transformer 如何重写前馈式 3DGS 的信息聚合方式

这一篇聚焦大重建模型,回答:

  • 为什么 token-level global aggregation 会进入 3DGS;
  • LRM 范式与 explicit Gaussian representation 如何结合;
  • 长序列、大场景、wide-coverage 何以成为新边界。(arXiv)

8.4 Part IV:Pose-Free 前馈式 3DGS:从实验室输入走向真实世界图像集合

这一篇聚焦 PF3plat、SelfSplat、Splatt3R、AnySplat,回答:

  • pose-free 的真正技术难点是什么;
  • foundation geometry 在这里是工具、先验还是底座;
  • 真实世界输入会如何改写模型设计。(arXiv)

8.5 Part V:结构化潜空间与高斯体:前馈式 3DGS 的下一代表示基座

这一篇聚焦 TGS、LaRa、VolSplat,回答:

  • triplane、Gaussian Volume、voxel-aligned latent 的结构优势到底是什么;
  • 为什么它们更适合承载编辑、生成、组织与压缩;
  • structured latent 如何改变 3DGS 的上层接口。(arXiv)

8.6 Part VI:Adaptive Placement and Generative Coupling in Feed-Forward 3DGS

这一篇聚焦 Off The Grid 与 LGM 一线,回答:

  • primitive placement 为什么会从回归走向检测;
  • 为什么 generation coupling 会重写评价标准;
  • feed-forward 3DGS 如何从重建器走向 3D asset engine。(arXiv)

9. 结语

前馈式 3DGS 的真正主战场,不再只是"能不能一次前向生成",而是"高斯如何更可信地被产生、被放置、被组织、被复用于生成"。

这句话背后的判断是:这个方向早已不是简单的速度优化支线。pixelSplat 让"前馈地产生高斯"成为成立问题;MVSplat 与 DepthSplat 让 field 重新回到几何底座;GRM、GS-LRM、Long-LRM 让它走向大模型化;PF3plat、SelfSplat、Splatt3R、AnySplat 让 pose-free 成为真实世界入口;LaRa 与 VolSplat 说明 structured latent 正在取代纯 pixel-aligned 直觉;Off The Grid 则第一次系统性地挑战 rigid primitive placement;LGM 更进一步表明,前馈式 3DGS 正在变成 3D 资产生成接口。(arXiv)

换句话说,真正的分歧不在于"谁更快、谁更准",而在于谁能给出更可靠的 geometry、更合理的 primitive placement、更强的 3D organization,以及更自然的 asset generation interface。未来的胜负手,不会只是更大的 backbone,而会是更好的几何底座 + 更好的高斯组织方式 + 更强的生成耦合能力 。这也是为什么,前馈式 3DGS 应被看作一个正在重构三维表示生成范式的方向,而不是 3DGS 的旁支加速版。(Haofei Xu)


总参考文献

A. 综述、总览与研究地图

B. 基础方法、前置谱系与桥接工作

C. 前馈式 3DGS 主干论文池

C1. 路线一:像素对齐 / 概率式高斯图

C2. 路线二:几何优先 / Cost Volume / Depth-first

C3. 路线三:LRM / Transformer / 大重建模型

C4. 路线四:Pose-Free / Uncalibrated / Foundation Geometry

C5. 路线五:Structured 3D Latents / Triplane / Gaussian Volume / Voxel-Aligned

C6. 适应性放置 / 预算控制 / 语义扩展

D. 生成耦合、内容创建与后处理扩展

相关推荐
qq_466302452 小时前
vs2022 mn矩阵运算 加减乘除
c++·算法·矩阵
淑子啦2 小时前
3D走马灯(网页&&小程序)
react.js·3d·小程序
阿Y加油吧2 小时前
LeetCode 双指针经典双题解|盛最多水的容器 + 三数之和,从入门到进阶吃透套路
算法·leetcode·职场和发展
普密斯科技2 小时前
高精度车载插座多维度检测方案——基于3D线激光轮廓传感器的实践应用
大数据·人工智能·深度学习·计算机视觉·3d·测量
LingYi_02 小时前
语义分割-paddleseg
深度学习·语义分割
B站_计算机毕业设计之家2 小时前
计算机毕业设计:汽车数据可视化与后台管理平台 Django框架 requests爬虫 可视化 车辆 数据分析 大数据 机器学习(建议收藏)✅
python·算法·机器学习·信息可视化·django·汽车·课程设计
Struart_R2 小时前
StreamVGGT、Stream3R、InfiniteVGGT论文解读
人工智能·计算机视觉·3d·视频·多模态
格林威2 小时前
工业相机图像采集处理:从 RAW 数据到 AI 可读图像,堡盟相机 C#实战代码深度解析
c++·人工智能·数码相机·opencv·算法·计算机视觉·c#
NPUQS3 小时前
【Unity 3D学习】Unity 与 Python 互通入门:点击按钮调用 Python(超简单示例)
学习·3d·unity