前馈式3D Gaussian Splatting 研究地图(路线一):像素对齐高斯的起点——pixelSplat 与 latentSplat 在解决什么

Part I:前馈式 3DGS 的起步范式:从像素到高斯

  • [0. 导言:路线一为什么值得单独讲](#0. 导言:路线一为什么值得单独讲)
    • [0.1 路线一不是"最强答案",而是前馈式 3DGS 的第一个成立范式](#0.1 路线一不是“最强答案”,而是前馈式 3DGS 的第一个成立范式)
    • [0.2 为什么说路线一解决了"能不能成立",但没有解决"怎样合理组织"](#0.2 为什么说路线一解决了“能不能成立”,但没有解决“怎样合理组织”)
    • [0.3 理解路线一,为什么是理解后续所有路线的前提](#0.3 理解路线一,为什么是理解后续所有路线的前提)
  • [1. 为什么前馈式 3DGS 一开始几乎都选择 pixel-aligned](#1. 为什么前馈式 3DGS 一开始几乎都选择 pixel-aligned)
    • [1.1 从张量形态出发:2D 编码器天然产生 pixel-aligned 表征](#1.1 从张量形态出发:2D 编码器天然产生 pixel-aligned 表征)
    • [1.2 从几何 lifting 出发:pixel-aligned 本质上是 2D-driven 3D lifting](#1.2 从几何 lifting 出发:pixel-aligned 本质上是 2D-driven 3D lifting)
    • [1.3 为什么最先出现的不是 voxel-aligned、pointmap、adaptive placement](#1.3 为什么最先出现的不是 voxel-aligned、pointmap、adaptive placement)
      • [(1)不是 voxel-aligned:因为第一代目标不是建立 3D 规则结构,而是最低成本打通前馈闭环](#(1)不是 voxel-aligned:因为第一代目标不是建立 3D 规则结构,而是最低成本打通前馈闭环)
      • [(2)不是 pointmap / set prediction:因为集合预测对第一代系统并不"最短路径"](#(2)不是 pointmap / set prediction:因为集合预测对第一代系统并不“最短路径”)
      • [(3)不是 adaptive placement:因为第一代系统优先要"可训练",不是先要"最优稀疏"](#(3)不是 adaptive placement:因为第一代系统优先要“可训练”,不是先要“最优稀疏”)
    • [1.4 pixel-aligned 为什么在训练上简单、在实现上直接、在渲染上高效](#1.4 pixel-aligned 为什么在训练上简单、在实现上直接、在渲染上高效)
    • [1.5 为什么它在直觉上也最"像"一个能工作的系统](#1.5 为什么它在直觉上也最“像”一个能工作的系统)
    • [1.6 一个形式化判断:pixel-aligned 为什么是"工程上最自然的起点"](#1.6 一个形式化判断:pixel-aligned 为什么是“工程上最自然的起点”)
    • [1.7 pixel-aligned 的阶段性优缺点总表](#1.7 pixel-aligned 的阶段性优缺点总表)
    • [1.8 本章结论:pixel-aligned 不是偶然选项,而是第一代 feed-forward 3DGS 的必然工程形态](#1.8 本章结论:pixel-aligned 不是偶然选项,而是第一代 feed-forward 3DGS 的必然工程形态)
  • [2. pixelSplat 的核心思想:概率分布而不是硬回归](#2. pixelSplat 的核心思想:概率分布而不是硬回归)
    • [2.1 pixelSplat 真正要解决的,不是"预测高斯",而是"让高斯中心可训练"](#2.1 pixelSplat 真正要解决的,不是“预测高斯”,而是“让高斯中心可训练”)
    • [2.2 为什么 Gaussian mean prediction 比 scale / opacity / color 更难](#2.2 为什么 Gaussian mean prediction 比 scale / opacity / color 更难)
    • [2.3 直接硬回归 mean,为什么会不稳定](#2.3 直接硬回归 mean,为什么会不稳定)
    • [2.4 pixelSplat 的改写:不是预测一个深度,而是预测一条视线上的存在概率](#2.4 pixelSplat 的改写:不是预测一个深度,而是预测一条视线上的存在概率)
    • [2.5 为什么说 pixelSplat 的历史意义,在于把 center prediction 变成"可训练问题"](#2.5 为什么说 pixelSplat 的历史意义,在于把 center prediction 变成“可训练问题”)
  • [3. 可微采样如何缓解 local minima](#3. 可微采样如何缓解 local minima)
    • [3.1 稀疏视角、局部支撑表示与局部最优之间的关系](#3.1 稀疏视角、局部支撑表示与局部最优之间的关系)
    • [3.2 为什么 center 一旦错位,后续优化很难自我纠正](#3.2 为什么 center 一旦错位,后续优化很难自我纠正)
    • [3.3 可微采样做了什么:不是直接求最优位置,而是先在分布上优化](#3.3 可微采样做了什么:不是直接求最优位置,而是先在分布上优化)
    • [3.4 reparameterization trick 在这里如何起作用](#3.4 reparameterization trick 在这里如何起作用)
    • [3.5 可微采样缓解了什么,又没有解决什么](#3.5 可微采样缓解了什么,又没有解决什么)
  • [4. pixel-aligned 方案为什么天然简单](#4. pixel-aligned 方案为什么天然简单)
    • [4.1 "简单"不是贬义,而是路线一最大的工程魅力](#4.1 “简单”不是贬义,而是路线一最大的工程魅力)
    • [4.2 它为什么容易与已有 2D backbone 兼容](#4.2 它为什么容易与已有 2D backbone 兼容)
    • [4.3 它为什么便于高效渲染与端到端训练](#4.3 它为什么便于高效渲染与端到端训练)
    • [4.4 为什么这条路线具有直觉性、可视化性、可解释性](#4.4 为什么这条路线具有直觉性、可视化性、可解释性)
    • [4.5 但"天然简单"也意味着:它更像 2D-driven 3D lifting,而不是 3D 结构化推理](#4.5 但“天然简单”也意味着:它更像 2D-driven 3D lifting,而不是 3D 结构化推理)
    • [4.6 本章结论:路线一的"简单",是一种高度成功的最小系统设计](#4.6 本章结论:路线一的“简单”,是一种高度成功的最小系统设计)
  • [5. 为什么开始走向 latent Gaussian](#5. 为什么开始走向 latent Gaussian)
    • [5.1 latentSplat 不是重复 pixelSplat,而是在路线一内部把"显式回归"推向"潜变量表示"](#5.1 latentSplat 不是重复 pixelSplat,而是在路线一内部把“显式回归”推向“潜变量表示”)
    • [5.2 latent Gaussian 与显式 RGB Gaussian 的根本差异,不在"存什么",而在"把不确定性放在哪里"](#5.2 latent Gaussian 与显式 RGB Gaussian 的根本差异,不在“存什么”,而在“把不确定性放在哪里”)
    • [5.3 latentSplat 为什么体现出"回归式 + 生成式"的混合趋势](#5.3 latentSplat 为什么体现出“回归式 + 生成式”的混合趋势)
    • [5.4 为什么 latent Gaussian 比显式像素颜色高斯更有潜力](#5.4 为什么 latent Gaussian 比显式像素颜色高斯更有潜力)
    • [5.5 本章结论:latentSplat 标志着路线一从"显式高斯回归"走向"概率化的语义高斯表示"](#5.5 本章结论:latentSplat 标志着路线一从“显式高斯回归”走向“概率化的语义高斯表示”)
  • [6. 这条路线的优势:训练直接、渲染高效、编辑友好](#6. 这条路线的优势:训练直接、渲染高效、编辑友好)
    • [6.1 路线一最宝贵的地方,是它把前馈式 3D Gaussian reconstruction 变成了清晰问题](#6.1 路线一最宝贵的地方,是它把前馈式 3D Gaussian reconstruction 变成了清晰问题)
    • [6.2 架构简洁:2D backbone + Gaussian head + splatting renderer 的短闭环](#6.2 架构简洁:2D backbone + Gaussian head + splatting renderer 的短闭环)
    • [6.3 训练效率与推理速度:高效 renderer 让显式高斯前馈化真正可行](#6.3 训练效率与推理速度:高效 renderer 让显式高斯前馈化真正可行)
    • [6.4 表示可解释、可编辑、具有资产感](#6.4 表示可解释、可编辑、具有资产感)
    • [6.5 路线一的优势总结:它让前馈式 3DGS 成为可复现、可比较、可工程化的话题](#6.5 路线一的优势总结:它让前馈式 3DGS 成为可复现、可比较、可工程化的话题)
  • [7. 这条路线的硬伤:3D 交互弱、密度分配偏置、遮挡不稳](#7. 这条路线的硬伤:3D 交互弱、密度分配偏置、遮挡不稳)
    • [7.1 3D 交互能力弱:它仍然主要是 2D 局部特征驱动](#7.1 3D 交互能力弱:它仍然主要是 2D 局部特征驱动)
    • [7.2 Gaussian density 分配容易受视图偏置影响](#7.2 Gaussian density 分配容易受视图偏置影响)
    • [7.3 多视图一致性瓶颈:局部 pixel-aligned 特征天然难以保证全局几何一致](#7.3 多视图一致性瓶颈:局部 pixel-aligned 特征天然难以保证全局几何一致)
    • [7.4 Gaussian mean localization 仍然是主瓶颈](#7.4 Gaussian mean localization 仍然是主瓶颈)
    • [7.5 它更像"2D 驱动的 3D lifting",而不是"真正从 3D 出发的结构化推理"](#7.5 它更像“2D 驱动的 3D lifting”,而不是“真正从 3D 出发的结构化推理”)
  • [8. 这条路线对后续所有方法留下了什么遗产](#8. 这条路线对后续所有方法留下了什么遗产)
    • [8.1 它留下了前馈式 3DGS 的问题定义](#8.1 它留下了前馈式 3DGS 的问题定义)
    • [8.2 它留下了 per-pixel Gaussian prediction 这一最小可行接口](#8.2 它留下了 per-pixel Gaussian prediction 这一最小可行接口)
    • [8.3 它留下了一个最关键的认识:Gaussian mean localization 是主矛盾](#8.3 它留下了一个最关键的认识:Gaussian mean localization 是主矛盾)
    • [8.4 它确认了 Gaussian renderer 是高效训练与推理的底座](#8.4 它确认了 Gaussian renderer 是高效训练与推理的底座)
    • [8.5 它留下了显式资产感与可编辑性这条产品化线索](#8.5 它留下了显式资产感与可编辑性这条产品化线索)
    • [8.6 它也留下了未解问题,并自然导向后续路线](#8.6 它也留下了未解问题,并自然导向后续路线)
  • [9. 结语](#9. 结语)
  • 参考文献
    • [1. Splatter Image](#1. Splatter Image)
    • [2. pixelSplat](#2. pixelSplat)
    • [3. latentSplat](#3. latentSplat)
    • [4. MVSplat](#4. MVSplat)
    • [5. TGS(Triplane Meets Gaussian Splatting)](#5. TGS(Triplane Meets Gaussian Splatting))

系列文章全文导航(总览篇)
Part I:前馈式 3DGS 的起步范式:从像素到高斯
[Part II:前馈式 3DGS 的 depth-first 转向](#Part II:前馈式 3DGS 的 depth-first 转向)
[Part III:Transformer 如何重写前馈式 3DGS 的信息聚合方式](#Part III:Transformer 如何重写前馈式 3DGS 的信息聚合方式)
[Part IV:Pose-Free 前馈式 3DGS:从实验室输入走向真实世界图像集合](#Part IV:Pose-Free 前馈式 3DGS:从实验室输入走向真实世界图像集合)
[Part V:结构化潜空间与高斯体:前馈式 3DGS 的下一代表示基座](#Part V:结构化潜空间与高斯体:前馈式 3DGS 的下一代表示基座)
[Part VI:Adaptive Placement and Generative Coupling in Feed-Forward 3DGS](#Part VI:Adaptive Placement and Generative Coupling in Feed-Forward 3DGS)


0. 导言:路线一为什么值得单独讲

0.1 路线一不是"最强答案",而是前馈式 3DGS 的第一个成立范式

如果把 feed-forward 3DGS 看成一个研究方向,那么它的第一个真正问题并不是"怎样做到最优",而是"能不能把多视图图像经过一次前向传播,直接变成一组可渲染、可训练、可编辑的 3D Gaussian primitives"。

从这个意义上说,pixelSplat 的历史作用,不在于它已经给出了最佳 3D 组织方式,而在于它第一次把"图像 → \rightarrow → 高斯集合 → \rightarrow → 新视角渲染"这条链路做成了一个清晰、可微、可复现的前馈范式;latentSplat 则在此基础上进一步把显式高斯推进到 latent / semantic Gaussian,使路线一第一次触碰表示泛化、语义承载与生成式解码的问题。

换句话说,路线一真正解决的是 feed-forward 3DGS 作为问题形式能否成立 ,而不是 3D Gaussian 应该以何种最合理的结构被组织。这一点,恰恰是理解后续路线分叉的起点。

形式上,可将 feed-forward 3DGS 写为一个条件生成映射:
F θ : { ( I v , Π v ) } v = 1 M ⟶ G , G = { G i } i = 1 N . (1) \mathcal{F}{\theta}: \left\{(I_v,\Pi_v)\right\}{v=1}^{M} \longrightarrow \mathcal{G}, \qquad \mathcal{G}=\left\{G_i\right\}_{i=1}^{N}. \tag{1} Fθ:{(Iv,Πv)}v=1M⟶G,G={Gi}i=1N.(1)

其中 I v I_v Iv 表示第 v v v 个输入视图, Π v \Pi_v Πv 表示相机内外参, G \mathcal{G} G 是输出的 3D Gaussian 集合,而
G i = ( μ i , Σ i , α i , ϕ i ) . (2) G_i=\big(\mu_i,\Sigma_i,\alpha_i,\phi_i\big). \tag{2} Gi=(μi,Σi,αi,ϕi).(2)

这里 μ i ∈ R 3 \mu_i\in\mathbb{R}^3 μi∈R3 是 Gaussian mean, Σ i \Sigma_i Σi 是协方差或其参数化形式, α i \alpha_i αi 是 opacity, ϕ i \phi_i ϕi 可以是 RGB / SH 系数,也可以是 latent feature。

原始 3DGS 已经证明:一旦有了这样一组高斯,借助 visibility-aware、anisotropic splatting 的快速可微 renderer,就可以同时支持高质量训练与实时渲染。也正因为底座已经成立,后续问题就从"如何优化一组现成高斯"转向"如何通过神经网络一次性预测这组高斯"。

这也是为什么路线一必须单独讲。因为后面几条路线------无论是把问题改写成深度 / cost volume 的路线二,还是提升到全局 token 聚合的大重建模型路线三,抑或引入 triplane / voxel / structured latent 的结构化路线------都不是凭空出现的。它们几乎都建立在路线一留下的两个前提之上:第一,用高斯作为显式、可渲染、可编辑的 3D 资产是可行的 ;第二,把输入图像的局部表征直接 lift 成 3D 高斯,是最容易起步的方式。前者来自 3DGS renderer 的工程成熟度,后者则被 Splatter Image、pixelSplat、latentSplat 这条线相继验证。


0.2 为什么说路线一解决了"能不能成立",但没有解决"怎样合理组织"

需要明确的是,feed-forward 3DGS 至少同时包含三个层次的问题:

  1. representation 问题:输出到底是不是一组显式 3D Gaussian;
  2. primitive placement 问题:这些 Gaussian 的中心应该放在哪里、放多少、如何分配密度;
  3. multi-view consistency 问题:不同输入视图提供的局部证据,如何在 3D 中合成为一致的结构。

路线一在第一个层次上几乎是成功的。它把任务稳定地压缩成"预测一组高斯参数,再用 Gaussian renderer 监督",从而让问题边界变得清楚:不再需要测试时逐场景优化,不再需要慢速体渲染器,也不再需要隐式场再额外抽取显式表示。

工程上,这意味着训练、推理、渲染、下游编辑第一次被统一进一个显式资产接口中。pixelSplat 明确强调其输出是 interpretable and editable 的 3D radiance field;latentSplat 则进一步说明,这个接口不必局限于显式 RGB 属性,也可以是 latent-space 中的 variational feature Gaussians。

但路线一在第二、第三层次上并未真正解决问题。因为它的基本出发点仍然是 2D-driven 3D lifting:先从 2D 编码器得到 pixel-aligned features,再让这些局部特征去决定高斯的 3D 位置、尺度和属性。这样做的优点是自然、直接、可微、效率高;缺点则同样明确:它并没有让网络"先在 3D 里想清楚场景结构,再决定高斯怎么摆",而是让网络"先在 2D 局部里产生候选,再把候选 lift 到 3D"。

真正的分歧不在于能不能产出高斯,而在于 高斯的组织原则究竟来自 2D 对齐张量,还是来自 3D 结构化推理。后面路线二引入 cost volume 来强化几何定位,路线三引入全局 token 聚合,路线五引入 triplane / voxel 这类结构化中间表示,本质上都在回答这个问题。

因此,本文的核心判断可以提前写成一句话:

Route-1 solves feed-forward feasibility, but not 3D organization optimality. (3) \text{Route-1 solves feed-forward feasibility, but not 3D organization optimality.} \tag{3} Route-1 solves feed-forward feasibility, but not 3D organization optimality.(3)

换句话说,路线一证明了"前馈式 3DGS 可以做",却没有证明"像素对齐高斯就是最终最优的 3D 表达方式"。这也是它为何重要,又为何必须被超越。这个判断,将贯穿后文对 pixelSplat 与 latentSplat 的全部分析。


0.3 理解路线一,为什么是理解后续所有路线的前提

如果不理解路线一,后续很多方法的"改进方向"会显得像局部工程技巧;但一旦把路线一看清楚,就会发现后续几乎所有改动都围绕同一主矛盾展开:Gaussian mean localization。因为 scale、opacity、appearance 都是在"位置基本合理"的前提下才有意义;而一旦 mean 位置错了,局部支撑 primitive 的后续渲染梯度往往难以把它拉回正确位置。pixelSplat 之所以采用 dense 3D probability distribution 加 differentiable sampling,本质上正是在承认:对路线一而言,最难的不是"给每个高斯填什么颜色",而是"把高斯放到哪里"。而 MVSplat 之所以转向 cost volume / depth estimation,也恰恰是在承认:这件事最终越来越像一个显式几何定位问题。

从研究方法论上说,路线一留下了五项遗产,后文会反复回到它们:

  • 它给出了前馈式 3DGS 的问题定义;
  • 它给出了 per-pixel Gaussian prediction 这一最小可行接口;
  • 它暴露了 Gaussian mean localization 是主矛盾;
  • 它确认了 Gaussian renderer 是训练与推理的高效底座;
  • 它证明了显式 Gaussian 作为"3D 资产"具有天然的可解释性与可编辑性。

这也是为什么本篇不是在"复盘两篇论文",而是在建立一个判断框架:路线一的历史意义,在于它定义了问题;路线一的历史局限,在于它没有最终定义好 3D 组织原则。

1. 为什么前馈式 3DGS 一开始几乎都选择 pixel-aligned

1.1 从张量形态出发:2D 编码器天然产生 pixel-aligned 表征

前馈式 3D 重建的第一代自然参数化,几乎必然会从 pixel-aligned 开始,这首先不是因为它在理论上最优,而是因为它在 张量形态 上最自然。标准视觉 backbone------无论是 CNN、U-Net、FPN,还是基于 patch / token 的视觉编码器------其最稳定、最成熟、最廉价的输出形态,本质上都是一个与图像平面保持对应关系的二维特征场:
F = E θ ( I ) ∈ R H × W × C . (4) F = E_{\theta}(I)\in\mathbb{R}^{H\times W\times C}. \tag{4} F=Eθ(I)∈RH×W×C.(4)

只要输出还是一个 H × W H\times W H×W 的二维特征网格,那么最顺手的下游建模方式就不是"先摆一个 3D 体素场",也不是"先构造一个无序点集拓扑",而是直接在每个像素位置附着若干个待 lift 的 Gaussian 参数:
Ψ u , v = h θ ( F u , v ) ⟶ G u , v , k k = 1 K . (5) \Psi_{u,v} = h_{\theta}(F_{u,v}) \longrightarrow {G_{u,v,k}}_{k=1}^{K}. \tag{5} Ψu,v=hθ(Fu,v)⟶Gu,v,kk=1K.(5)

这里 K K K 可以是每像素一个,也可以是固定少量多个。Splatter Image 正是把这一点做到极致:它明确把高斯集合当作"存放在一张 2D 图像容器中的无序集合",用 image-to-image 网络为每个输入像素预测一个 3D Gaussian;其作者甚至直接强调,这样做的关键好处,就是可以只用高效的 2D operators 来实现 reconstruction。

本质上,这意味着前馈式 3DGS 的第一代设计,不是从"3D 世界应该怎样离散化"出发,而是从"现成的 2D 视觉网络最容易输出什么"出发。换句话说,pixel-aligned 先解决的是 网络接口自然性 ,而不是 3D 组织最优性

这是一种非常典型的工程路径:谁能最少改动现有图像网络、最少引入 3D 昂贵算子、最短闭环地接上 Gaussian renderer,谁就最可能先成为起步范式。Splatter Image 的"一像素一高斯"与 pixelSplat 的"pixel-aligned features + Gaussian prediction"都属于这个逻辑链条上的自然产物。

从复杂度角度看,这条路也几乎是默认最优。若采用 voxel-aligned 表达,则需要先定义体素边界、分辨率、坐标归一化方式,并引入 3D 卷积或等价的 3D 稠密处理;若采用 pointmap / adaptive placement,则网络必须额外学习集合 cardinality、空间采样规律与排序不变性。而 pixel-aligned 直接继承了图像域已有的空间索引:第 ( u , v ) (u,v) (u,v) 个位置的 feature 就是第 ( u , v ) (u,v) (u,v) 个位置的 prediction seed。工程上这意味着实现更直接、显存更友好、训练更稳定,且天然兼容大量成熟的 2D backbone。

这个事实,不是某一篇论文单独发明的,而是整个视觉系统工程成熟度共同推出来的结果。Splatter Image 对"image as container of 3D Gaussians"的表述,正是这一点的最鲜明写照。


1.2 从几何 lifting 出发:pixel-aligned 本质上是 2D-driven 3D lifting

仅从网络接口看,pixel-aligned 只是"方便";但它之所以真正成立,是因为它同时满足一个几何事实:图像中的每个像素,本身就对应一条穿过相机中心的 3D 视线。 这使得"从像素到高斯"的 lift 不再是无锚点生成,而是一个有明确几何母体的提升过程。

令像素坐标为 p = ( u , v ) p=(u,v) p=(u,v),相机内参为 K K K,外参为 ( R , t ) (R,t) (R,t),则该像素在世界坐标系中的视线可写为
r p ( λ ) = o + λ , d p , d p = R ⊤ K − 1 p ~ , (6) r_p(\lambda)=o + \lambda, d_p, \qquad d_p = R^{\top}K^{-1}\tilde{p}, \tag{6} rp(λ)=o+λ,dp,dp=R⊤K−1p~,(6)

其中 o o o 为相机中心, p ~ = ( u , v , 1 ) ⊤ \tilde p=(u,v,1)^\top p~=(u,v,1)⊤ 为齐次像素坐标, λ > 0 \lambda>0 λ>0 为沿射线的深度参数。于是,每像素高斯预测在最简单的情形下可以写成
μ p , k = o + λ p , k d p + Δ ⊥ ∗ p , k , (7) \mu_{p,k} = o + \lambda_{p,k} d_p + \Delta^{\perp}*{p,k}, \tag{7} μp,k=o+λp,kdp+Δ⊥∗p,k,(7)

其中 λ ∗ p , k \lambda*{p,k} λ∗p,k 表示沿视线方向的放置深度, Δ p , k ⊥ \Delta^{\perp}_{p,k} Δp,k⊥ 表示小的离轴修正。这个公式揭示了路线一最核心的几何本质:它不是在全空间中自由搜索 primitive placement,而是在每个像素诱导出的局部几何管道中做 3D 提升。

这也是为什么 pixel-aligned 会成为第一代自然选择。因为与 voxel-aligned 相比,它不需要先离散整个 3D 空间;与 point-based global prediction 相比,它不需要先解决"点从哪里来"的无锚点初始化。每一个像素天然就是一个候选 primitive 的产生位置,每一条相机光线天然就是一个 primitive 的几何载体。Splatter Image 明确指出,其 predicted Gaussians 主要位于从相机到物体的 rays 上,但也允许 off-ray placement,从而实现 360° 表达;这恰好说明了 per-pixel 高斯并不是死板地贴在像平面上,而是利用 pixel-to-ray correspondence 作为 3D 提升的几何起点。

本质上,这种建模方式可理解为:
2D local evidence ; → camera geometry ; ray-conditioned 3D hypothesis ; → renderer supervision ; Gaussian scene . (8) \text{2D local evidence} ;\xrightarrow{\text{camera geometry}}; \text{ray-conditioned 3D hypothesis} ;\xrightarrow{\text{renderer supervision}}; \text{Gaussian scene}. \tag{8} 2D local evidence;camera geometry ;ray-conditioned 3D hypothesis;renderer supervision ;Gaussian scene.(8)

这里真正的先验,不是 3D structure-aware reasoning,而是 相机几何约束下的局部 lifting。它之所以强大,是因为把一个极难的"从图像直接构建 3D 资产"问题,分解成了大量局部、同构、共享参数的小问题;它之所以有限,也恰恰因为这些小问题在一开始是分散的、局部的、以视图为中心的,而不是统一在一个显式 3D 结构坐标系里进行全局决策。这个结论,是后续所有批判性分析的前提。


1.3 为什么最先出现的不是 voxel-aligned、pointmap、adaptive placement

先回答一下这个问题,不然"pixel-aligned 是自然起点"显得只是一句经验判断。

(1)不是 voxel-aligned:因为第一代目标不是建立 3D 规则结构,而是最低成本打通前馈闭环

若一开始采用 voxel-aligned 表达,那么模型必须先决定:3D 边界框如何定义、空间分辨率如何设定、空域稀疏性如何处理、视锥外区域如何裁剪。更关键的是,3D 稠密张量天然带来更重的内存和计算负担,而 feed-forward 3DGS 的早期价值主张恰恰是"利用 Gaussian Splatting 的高效显式 renderer 做快速训练与推理"。原始 3DGS 之所以引发方法爆发,一个重要原因就是它在保持高质量的同时,通过 3D Gaussian 表示与 visibility-aware rasterization 避免了空空间的大量无效计算。第一代前馈方法若再退回大体素场,实际上会主动放弃这一天然优势。

(2)不是 pointmap / set prediction:因为集合预测对第一代系统并不"最短路径"

无序点集或无序高斯集合当然更"像 3D",但这类设计对第一代系统来说会立即引入两个困难:其一,输出 cardinality 与排序不变性需要额外处理;其二,网络缺少稳定的空间索引去承接来自图像 backbone 的局部特征。相比之下,pixel-aligned 直接让第 ( u , v ) (u,v) (u,v) 个位置的 feature 对应第 ( u , v ) (u,v) (u,v) 个 Gaussian 槽位,避免了集合匹配、动态分配、slot discovery 等额外问题。Splatter Image 甚至明确把"集合存进图像容器"作为设计核心,其真正含义正是:先借助二维有序存储,回避三维无序集合学习的难题。

(3)不是 adaptive placement:因为第一代系统优先要"可训练",不是先要"最优稀疏"

adaptive placement 看似更合理,因为它允许高斯数量和位置随场景复杂度自适应变化;但这类方案要求网络先学会"哪里值得放 primitive、放几个、怎样分裂或合并"。这在研究后期是高价值问题,但在早期会显著提高训练不稳定性。pixelSplat 的贡献恰恰说明:即便是在固定 pixel-aligned 框架下,单是 Gaussian mean localization 都已经足够困难,甚至需要用 dense 3D probability distribution 和 differentiable sampling 才能缓解 local minima。既然 mean prediction 本身已是瓶颈,那么在第一代范式里继续叠加 adaptive placement,几乎必然会让问题复杂度失控。

换句话说,最先出现的不是"最像 3D 的方案",而是"最短时间内能把输入图像、2D backbone、显式 Gaussian 表示、快速渲染器接成端到端闭环的方案"。这正是 pixel-aligned 的工程合理性所在。


1.4 pixel-aligned 为什么在训练上简单、在实现上直接、在渲染上高效

从系统架构上看,路线一的最小闭环几乎可以压缩成四步:
Image Encoder ; → ; Per-pixel Prediction Head ; → ; Unprojection / 3D Gaussian Construction ; → ; Gaussian Renderer . (9) \text{Image Encoder} ;\rightarrow; \text{Per-pixel Prediction Head} ;\rightarrow; \text{Unprojection / 3D Gaussian Construction} ;\rightarrow; \text{Gaussian Renderer}. \tag{9} Image Encoder;→;Per-pixel Prediction Head;→;Unprojection / 3D Gaussian Construction;→;Gaussian Renderer.(9)

这条链路的强大之处,在于它的每一环都已有成熟技术积累:图像编码器可复用大规模 2D 视觉模型;prediction head 只是标准 dense prediction;3D Gaussian construction 是显式参数生成;renderer 则由原始 3DGS 提供高效可微底座。于是,训练目标也自然回到最熟悉的像素监督或感知监督:
L = λ 1 L ∗ p h o t o + λ 2 L ∗ p e r c + λ 3 L ∗ r e g , (10) \mathcal{L}= \lambda_1 \mathcal{L}*{photo} + \lambda_2 \mathcal{L}*{perc} + \lambda_3 \mathcal{L}*{reg}, \tag{10} L=λ1L∗photo+λ2L∗perc+λ3L∗reg,(10)

其中 L ∗ p h o t o \mathcal{L}*{photo} L∗photo 可以是重建误差, L ∗ p e r c \mathcal{L}*{perc} L∗perc 可以是 LPIPS 一类感知损失, L ∗ r e g \mathcal{L}*{reg} L∗reg 是对 opacity、scale、density 等的规则化。因为 renderer 足够快,这种"预测显式高斯---渲染完整图像---直接回传"的训练范式才真正可行。3DGS 明确强调其 visibility-aware anisotropic splatting 兼顾训练效率与实时渲染;Splatter Image 也明确把 renderer 的高速视为训练 bottleneck 被解除的关键原因,并据此直接优化完整视图与感知指标。

工程上这意味着四个直接收益。

第一,训练直接。不需要测试时逐场景优化,也不需要中间再求一个隐式场再导出显式表示。pixelSplat 直接从图像对前馈输出高斯,latentSplat 直接输出 variational 3D feature Gaussians,再经过 splatting 与 2D decoder 得到结果。

第二,推理直接。输出本身就是 Gaussian scene asset,而不是一个还要后处理的中间体。pixelSplat 甚至将其结果定义为 interpretable and editable 3D radiance field,这一表述非常关键:它说明路线一不是只追求 NVS 图像质量,而是已经开始把"显式可操作资产"作为价值主张。

第三,实现直接。只要你有一个成熟的 2D backbone,就能快速原型化一代 feed-forward 3DGS。Splatter Image 几乎把这点展示得淋漓尽致:一张图像进去,一张"高斯图像容器"出来;pixelSplat 则把这个简单原型提升到稀疏双视图广基线 generalizable reconstruction。

第四,渲染高效。路线一不需要为了一次前馈推理再运行慢速体渲染器。高斯显式化之后,rendering pipeline 与原始 3DGS 高度兼容。也正因此,路线一不是单纯"学一个更快的 NeRF",而是在用显式 primitive 重构整个训练---推理---交付闭环。


1.5 为什么它在直觉上也最"像"一个能工作的系统

路线一之所以迅速被接受,还有一个常被低估的原因:它具有极强的 可视化直觉调试友好性

对研究者而言,per-pixel Gaussian prediction 几乎天然可解释。你可以直接可视化某一块图像区域究竟产生了多少高斯、这些高斯位于哪条视线附近、scale 是否发散、opacity 是否塌缩、颜色或 latent feature 是否异常。相比完全隐式的 3D 表征,这种"局部像素 ↔ \leftrightarrow ↔ 局部 primitive 槽位"的映射,极大降低了方法分析难度。pixelSplat 把这一点推进到更进一步:它不只输出可解释的高斯,还把 mean prediction 显式建模为一个 3D probability distribution 上的 differentiable sampling 问题。工程上这意味着,当系统失败时,研究者至少知道失败发生在"深度 / 位置假设的概率建模"而不是某个完全黑箱的隐藏状态。

对研发工程师而言,路线一也更像资产生产链而不是纯渲染链。高斯本身就是显式实体:有中心、有协方差、有 opacity、有颜色或 latent feature。它天然兼容可视化、剪裁、选择、编辑、下游渲染和潜在资产化流程。这也是为什么 pixelSplat 在 abstract 里直接把"editable"写进结果描述,这不是附带卖点,而是路线一的结构性意义:一旦你把 reconstruction 做成显式高斯输出,表示本身就开始具有资产感。


1.6 一个形式化判断:pixel-aligned 为什么是"工程上最自然的起点"

现在可以把上面的逻辑压缩成一个更形式化的判断。

设前馈式 3DGS 的设计目标为同时最小化以下代价:
J = C ∗ a r c h ⏟ ∗ 网络结构复杂度 + C ∗ t r a i n ⏟ ∗ 训练代价 + C ∗ r e n d e r ⏟ ∗ 渲染代价 + C ∗ r e p r ⏟ ∗ 表示与接口复杂度 . (11) \mathcal{J}= \underbrace{\mathcal{C}*{arch}}*{\text{网络结构复杂度}} + \underbrace{\mathcal{C}*{train}}*{\text{训练代价}} + \underbrace{\mathcal{C}*{render}}*{\text{渲染代价}} + \underbrace{\mathcal{C}*{repr}}*{\text{表示与接口复杂度}}. \tag{11} J= C∗arch∗网络结构复杂度+ C∗train∗训练代价+ C∗render∗渲染代价+ C∗repr∗表示与接口复杂度.(11)

对于第一代方法而言,pixel-aligned 的优势在于它同时降低了这四项:

  • C a r c h \mathcal{C}_{arch} Carch:复用 2D backbone 与 dense head;
  • C t r a i n \mathcal{C}_{train} Ctrain:输出槽位固定,避免集合匹配与动态 cardinality;
  • C r e n d e r \mathcal{C}_{render} Crender:直接接入 Gaussian renderer;
  • C r e p r \mathcal{C}_{repr} Crepr:输出就是显式高斯,不需要额外解码成资产。

因此,对"先把问题做成"的目标而言,pixel-aligned 不是偶然选择,而是一个近乎必然的局部最优。Splatter Image 证明了这条路对单视图对象 reconstruction 可以极度直接;pixelSplat 证明了它可以进一步扩展到稀疏双视图 generalizable 3D reconstruction;latentSplat 则说明,哪怕继续沿这条路前进,路线一内部也会自然走向 latent Gaussian 与生成式解码。

但需要提前埋下一个判断:"工程上最自然"并不等于"几何上最合理"。

因为 pixel-aligned 的全部便利,都建立在一个前提之上:让 2D 局部对齐结构承担 3D primitive placement 的主导责任。这个前提在起步阶段极其高效,在规模化与高精度阶段却会逐步变成瓶颈。TGS 后来明确指出,直接在同一 latent space 中学习高斯多种参数之间的复杂关系仍具挑战;MVSplat 更是直接把 Gaussian center localization 转向由 plane sweeping cost volume 提供几何线索的 depth estimation 问题。它们都在用不同方式说明:pixel-aligned 虽然自然,但它并不具备完整的 3D 组织能力。


1.7 pixel-aligned 的阶段性优缺点总表

下面这张表,可以作为本路线后续分析的总索引。

维度 pixel-aligned / per-pixel Gaussian prediction 的收益 pixel-aligned / per-pixel Gaussian prediction 的代价
网络接口 与 H × W H\times W H×W 特征图天然对齐,易于复用 2D backbone 结构先验主要停留在 2D 局部邻域
训练实现 输出槽位固定,端到端训练直接 primitive placement 缺少显式 3D 全局协调
渲染闭环 与 3DGS renderer 高度兼容,训练与推理高效 高效并不自动带来几何一致性
表示形式 输出显式高斯,具有可解释性与可编辑性 显式并不等于结构化,组织规则仍薄弱
几何起点 每个像素天然对应一条视线,便于 lifting 本质仍是 ray-conditioned local hypothesis
密度控制 固定每像素若干高斯,系统最容易落地 难以按真实 3D 复杂度自适应分配密度
多视图一致性 多视图输入可通过共享网络或轻量交互整合 局部 pixel-aligned 证据难以天然保证全局 3D 一致
遮挡与歧义 可借渲染监督间接修正 遮挡、重复纹理、低纹理区域仍易出错

这张表的结论很简单:pixel-aligned 是第一代前馈式 3DGS 的最优起点,不是 3D 结构建模的终点答案。


1.8 本章结论:pixel-aligned 不是偶然选项,而是第一代 feed-forward 3DGS 的必然工程形态

现在可以给出本章的最终判断。

前馈式 3DGS 之所以一开始几乎都选择 pixel-aligned,不是因为研究者"恰好喜欢像素对齐",而是因为在 3DGS renderer 已经成熟、2D 视觉 backbone 已经高度工业化的背景下,这条路线同时满足了四个条件:

  1. 网络输出自然:2D 编码器直接给出 pixel-aligned 特征;
  2. 几何 lifting 自然:每个像素天然诱导一条 3D 射线;
  3. 训练闭环自然:显式高斯可直接送入高速 renderer;
  4. 工程交付自然:输出本身就是可解释、可编辑的 3D 资产。

因此,pixel-aligned / per-pixel Gaussian prediction 是前馈式 3DGS 的第一代自然范式,几乎具有历史必然性。真正的分歧不在于它是否"足够聪明",而在于它是否已经具备了足够强的 3D structure-aware reasoning。对此,答案是否定的。而这,正是下一章讨论 pixelSplat 为何必须把 Gaussian center prediction 改写成"概率分布 + 可微采样"问题的前提。


2. pixelSplat 的核心思想:概率分布而不是硬回归

2.1 pixelSplat 真正要解决的,不是"预测高斯",而是"让高斯中心可训练"

从论文表述看,pixelSplat 的关键创新并不在于"第一次把图像变成高斯"这一表层动作,而在于它明确识别出:在 primitive-based、尤其是 locally supported 的显式表示里,Gaussian mean localization 才是最难、最不稳定、最决定成败的一环

因此,作者并没有把问题停留在"每像素直接回归一个 3D 点",而是把每个像素沿视线方向的几何不确定性,显式写成一个 3D 概率分布,再从该分布中采样 Gaussian means,并通过可微机制回传梯度。论文摘要、方法章节与局部极值分析都明确指出:这是为了解决 sparse and locally supported representations 中的 local minima,而不是单纯为了让网络多一个 probabilistic 的包装.

形式上,设参考视图中像素 p = ( u , v ) p=(u,v) p=(u,v) 对应相机中心为 o o o、视线方向为 r p r_p rp,则最朴素的点估计版本是直接回归一 个深度 d p d_p dp,再做 unprojection:
μ p = o + d p , r p . (12) \mu_p = o + d_p, r_p. \tag{12} μp=o+dp,rp.(12)

这就是"硬回归 Gaussian center"的最直接形式。pixelSplat 的判断是:这个形式在表达上虽最短,但在优化上极其脆弱,因为一旦 d p d_p dp 偏离正确深度,primitive 的可见性、投影位置与渲染贡献会同步错位,导致梯度路径很差。于是它改为预测沿射线的离散深度分布,再从中采样深度桶索引。论文第 4.2 节明确写到:他们不直接预测 depth,而是预测"a Gaussian exists at a depth along the ray"的概率分布,并在前向时从该分布采样 Gaussian location。

这意味着,路线一内部真正的主问题不是
How to regress Gaussian parameters? \text{How to regress Gaussian parameters?} How to regress Gaussian parameters?

而是
How to localize Gaussian means under sparse supervision and local support? (13) \text{How to localize Gaussian means under sparse supervision and local support?} \tag{13} How to localize Gaussian means under sparse supervision and local support?(13)

换句话说,pixelSplat 的历史意义,首先在于它把"高斯中心定位"从一个看似普通的 dense regression 子任务,提升成了前馈式 3DGS 的核心难题。后面路线二之所以走向 depth / cost volume,本质上也是在承认这一点。


2.2 为什么 Gaussian mean prediction 比 scale / opacity / color 更难

这是路线一必须反复回答的第一学术问题。

设目标图像上的像素损失为
L = ∑ x ∈ Ω ℓ ( C ( x ; G ) , , I ⋆ ( x ) ) , (14) \mathcal{L}= \sum_{x\in\Omega} \ell\big(C(x;\mathcal{G}),, I^\star(x)\big), \tag{14} L=x∈Ω∑ℓ(C(x;G),,I⋆(x)),(14)

其中 C ( x ; G ) C(x;\mathcal{G}) C(x;G) 是由高斯集合 G \mathcal{G} G 经过 splatting renderer 得到的颜色。对单个 Gaussian G i = ( μ i , Σ i , α i , ϕ i ) G_i=(\mu_i,\Sigma_i,\alpha_i,\phi_i) Gi=(μi,Σi,αi,ϕi) 而言, ϕ i \phi_i ϕi 可以表示颜色或 SH 系数。若暂不考虑复杂遮挡,仅从局部线性化角度看,color / opacity / scale 的作用主要体现在"已有贡献"的幅值和扩散形态上;但 mean 的作用首先决定的是 这个 Gaussian 究竟是否会对正确像素区域产生贡献

可以把某个 Gaussian 对像素 x x x 的投影权重抽象写成
w i ( x ) ∝ α i , exp ⁡ ! ( − 1 2 ( π ( μ i ) − x ) ⊤ S i − 1 ( π ( μ i ) − x ) ) , (15) w_i(x) \propto \alpha_i , \exp!\Big( -\tfrac12 (\pi(\mu_i)-x)^\top \mathbf{S}_i^{-1} (\pi(\mu_i)-x) \Big), \tag{15} wi(x)∝αi,exp!(−21(π(μi)−x)⊤Si−1(π(μi)−x)),(15)

其中 π ( μ i ) \pi(\mu_i) π(μi) 是 3D 中心投影到像平面的结果, S i \mathbf{S}_i Si 是投影后的二维协方差。于是:

  • 改颜色 ϕ i \phi_i ϕi,主要是在已有权重 w i ( x ) w_i(x) wi(x) 的地方改"画什么";
  • 改 opacity α i \alpha_i αi,主要是在已有位置上改"画多强";
  • 改 scale / covariance,主要是在已有中心附近改"覆盖多大范围";
  • 改 mean μ i \mu_i μi,则是在改"它究竟画在哪里、是否还在正确可见表面上"。

因此,mean prediction 的困难不是参数维度更高,而是它控制了 support assignment:哪个 primitive 对哪个表面、哪个像素、哪个可见层负责。只要中心错位,后面的 scale / opacity / color 再精确,往往也只是把错误的位置渲染得更稳定。这个逻辑与 pixelSplat 对"the most consequential question is how to parameterize the position of each Gaussian"的强调是一致的。

从优化角度进一步看,若 μ i \mu_i μi 已接近正确表面,则对 ϕ i , α i , Σ i \phi_i,\alpha_i,\Sigma_i ϕi,αi,Σi 的梯度往往仍具有较强局部可修正性;但若 μ i \mu_i μi 本身落在错误深度层、错误可见面甚至空域中,那么渲染器给它分配到的监督信号要么极弱、要么方向混乱、要么被遮挡关系截断。这就是为什么 mean prediction 比其他属性更像一个 latent assignment + geometric localization 问题,而不是普通回归问题。换句话说,scale / opacity / color 更多是在"已知谁负责什么"的条件下做局部拟合;而 mean prediction 是在决定"谁该为哪里负责"。这两者难度不是同一层级。这个判断,也是后面所有路线分叉的理论起点。


2.3 直接硬回归 mean,为什么会不稳定

若直接让网络输出 d p d_p dp 或 μ p \mu_p μp,那么 loss 对中心的梯度链路可抽象为
∂ L ∂ μ p = ∑ x ∈ Ω ∂ L ∂ C ( x ) ∂ C ( x ) ∂ w p ( x ) ∂ w p ( x ) ∂ π ( μ p ) ∂ π ( μ p ) ∂ μ p . (16) \frac{\partial \mathcal{L}}{\partial \mu_p}= \sum_{x\in\Omega} \frac{\partial \mathcal{L}}{\partial C(x)} \frac{\partial C(x)}{\partial w_p(x)} \frac{\partial w_p(x)}{\partial \pi(\mu_p)} \frac{\partial \pi(\mu_p)}{\partial \mu_p}. \tag{16} ∂μp∂L=x∈Ω∑∂C(x)∂L∂wp(x)∂C(x)∂π(μp)∂wp(x)∂μp∂π(μp).(16)

表面上,这只是正常的链式法则;但问题在于 ∂ w p ( x ) ∂ π ( μ p ) \frac{\partial w_p(x)}{\partial \pi(\mu_p)} ∂π(μp)∂wp(x) 对 support 极其敏感。若当前 Gaussian 投影位置与目标表面投影相距较远,则高斯核的局部支撑会让该项迅速衰减;若中间还叠加 visibility / transmittance,则梯度甚至会被错误前景完全截断。于是,网络虽在数学上"可导",在优化上却接近"不可到达"。

pixelSplat 在第 3 节专门把这一点写成 primitive fitting 的 local minima 问题,并把其类比到 Gaussian mixture model 的非凸拟合。论文明确指出两层障碍:第一,Gaussian primitives have local support,若离正确位置超过若干标准差,梯度会消失;第二,即便已经靠近正确位置,也仍需存在一条 loss 单调下降的路径把 primitive 推到最终位置,而在 differentiable rendering 中这往往不成立,因为 Gaussian 穿越空域或错误遮挡关系时会产生非单调损失。

这句话非常关键。因为它说明 pixelSplat 并不是在说"网络回归能力不够强",而是在说 参数化本身诱发了坏优化地形。坏的不是网络容量,而是 primitive placement 的坐标化方式。换句话说,若我们坚持把每个像素的几何假设压成一个点估计,那么网络必须在一个高度不平滑、非凸、含遮挡切换的 loss landscape 里直接搜索正确位置;而 sparse-view 场景又会进一步放大这类不稳定性,因为多视图几何约束本身就不足。pixelSplat 的 probabilistic prediction,本质上是对这一优化地形进行重新参数化,而不是简单增加监督。


2.4 pixelSplat 的改写:不是预测一个深度,而是预测一条视线上的存在概率

pixelSplat 的具体做法,是把单点深度回归改写成沿 ray 的离散概率密度预测。设射线为
r p ( d ) = o + d , r p , d ∈ [ d min ⁡ , d max ⁡ ] , (17) r_p(d)=o+d,r_p, \qquad d\in[d_{\min},d_{\max}], \tag{17} rp(d)=o+d,rp,d∈[dmin,dmax],(17)

作者在这一区间上离散出若干 depth buckets,并在 disparity space 中进行参数化。对每个像素特征 f p f_p fp,网络输出一组 logits,经 softmax 后得到
q p ( b ) = s o f t m a x ( z p ) ∗ b , b ∈ 1 , ... , B , (18) q_p(b)=\mathrm{softmax}(z_p)*b, \qquad b\in{1,\dots,B}, \tag{18} qp(b)=softmax(zp)∗b,b∈1,...,B,(18)

其中 q p ( b ) q_p(b) qp(b) 表示"该 ray 在第 b b b 个深度桶处存在表面 / Gaussian 的概率"。同时,网络还为每个 bucket 预测一个局部 offset δ ∗ p , b \delta*{p,b} δ∗p,b,用于在桶内细化中心位置。于是,Gaussian mean 的构造可写为
d p = d b + δ p , b , μ p = o + d p , r p , b ∼ C a t ( q p ) . (19) d_p = d_b + \delta_{p,b}, \qquad \mu_p = o + d_p, r_p, \qquad b\sim \mathrm{Cat}(q_p). \tag{19} dp=db+δp,b,μp=o+dp,rp,b∼Cat(qp).(19)

这正是论文第 4.2 节的核心:他们不预测 depth directly,而是预测 depth probability density,再 sample Gaussian location。

这一改写的结构性意义在于,它把"沿 ray 只能选一个答案"的硬回归,变成了"先保留多个候选,再通过训练逐步收缩概率质量"的软决策。于是,网络不必在训练初期就赌中唯一正确深度,而可以先把若干 plausible hypothesis 保留在分布中,再让渲染监督去压缩不合理的深度桶。这就是为什么我更愿意把它理解为一种 可训练的 hypothesis management,而不仅仅是 probabilistic depth regression。

从表征角度看,这一步还有一个更深的意义:一旦中心位置由分布而不是点值控制,primitive 的"出现 / 消失"就不再依赖显式的非可微 spawning / pruning 规则,而可以通过概率质量的集中与消散来隐式实现。pixelSplat 论文明确指出,这种机制使 Gaussian primitives can implicitly be spawned or deleted during training,同时保持 gradient flow;这与原始 3DGS 中依赖 adaptive density control 的非可微启发式形成鲜明对比。


2.5 为什么说 pixelSplat 的历史意义,在于把 center prediction 变成"可训练问题"

这一章最核心的判断,可以写成一句话:

pixelSplat does not remove geometric ambiguity; it makes ambiguity trainable. (20) \text{pixelSplat does not remove geometric ambiguity;} \quad \text{it makes ambiguity trainable.} \tag{20} pixelSplat does not remove geometric ambiguity;it makes ambiguity trainable.(20)

需要明确的是,pixelSplat 并没有神奇地消除 sparse-view 的几何歧义。两个视图仍然可能面对低纹理、重复纹理、遮挡与尺度不确定性;ray 上仍然可能存在多个相互竞争的深度假设。它真正做的是:把原先"一个错误点估计导致整个 primitive 失去梯度"的离散失败模式,改写成"多个候选深度桶之间的概率竞争",从而给优化过程保留了一条更宽的梯度通道。论文在消融中也直接比较了 "No Sampling" 与其完整方案,并把 speckling artifacts 与 local minima 联系起来。

因此,pixelSplat 的方法贡献,不能简单描述成"提出了一种概率预测头"。更准确的说法是:它第一次把 Gaussian center prediction 从一个不稳定的 primitive regression,重写成一个带有显式不确定性管理的 differentiable sampling 问题。后续无论你选择几何优先、深度优先、体素优先还是 latent 优先,都无法绕开这个认识:在前馈式 3DGS 中,center placement 是主矛盾。


3. 可微采样如何缓解 local minima

3.1 稀疏视角、局部支撑表示与局部最优之间的关系

这是本文的第二个核心问题。

先看"局部支撑表示"本身。3D Gaussian primitive 不是像密集体渲染那样沿整条射线连续分布,而是以有限数量、局部影响域的显式核函数来近似场景。原始 3DGS 正是利用了这一点,才避免了空域中大量无效计算,并通过 visibility-aware anisotropic splatting 获得高速渲染。可也正因为 primitive 是局部支撑的,每个 Gaussian 只在自己附近产生显著影响。这对渲染效率是优点,对优化则是双刃剑:一旦初始化或预测位置偏得太远,梯度就会变得很弱。

从稀疏视角的角度看,问题进一步恶化。设真实表面点为 X ⋆ X^\star X⋆,当前 Gaussian center 为 μ \mu μ。在只有少量输入视图时,图像监督并不会直接告诉你"3D 中心应该朝哪个方向移动多少";它只会通过若干目标图像上的重投影误差,间接地、经过遮挡与可见性关系后给出信号。因此,优化实际上在求解一个高度欠定的逆问题:
Find μ ∈ R 3 s.t. Π v ( μ ) explains sparse observed images I v . (21) \text{Find } \mu \in \mathbb{R}^3 \quad \text{s.t.} \quad \Pi_v(\mu) \text{ explains sparse observed images } {I_v}. \tag{21} Find μ∈R3s.t.Πv(μ) explains sparse observed images Iv.(21)

若输入视图足够少,则多个 3D 点可能在观测上近似等价;若表示又是局部支撑的,则错误候选之间不会彼此平滑过渡,而是呈现多个分离的吸引域。于是,稀疏视角与局部支撑叠加,就自然形成了对 local minima 友好的优化地形。pixelSplat 正是在这个意义上说 local minima 是 sparse and locally supported representations 的内在问题。


3.2 为什么 center 一旦错位,后续优化很难自我纠正

可以把 Gaussian 对某个目标表面点附近的贡献抽象为
κ ( μ ; X ⋆ ) = exp ⁡ ! ( − 1 2 ( μ − X ⋆ ) ⊤ Σ − 1 ( μ − X ⋆ ) ) . (22) \kappa(\mu;X^\star)= \exp!\Big( -\frac{1}{2} (\mu-X^\star)^\top \Sigma^{-1} (\mu-X^\star) \Big). \tag{22} κ(μ;X⋆)=exp!(−21(μ−X⋆)⊤Σ−1(μ−X⋆)).(22)

∇ μ κ = − κ ( μ ; X ⋆ ) , Σ − 1 ( μ − X ⋆ ) . (23) \nabla_{\mu}\kappa= -\kappa(\mu;X^\star),\Sigma^{-1}(\mu-X^\star). \tag{23} ∇μκ=−κ(μ;X⋆),Σ−1(μ−X⋆).(23)

这个式子说明,只要 ∣ μ − X ⋆ ∣ |\mu-X^\star| ∣μ−X⋆∣ 相对协方差尺度足够大, κ \kappa κ 与其梯度都会指数衰减。也就是说,中心错位不是"还能慢慢拉回来"的连续退化,而常常是"直接失去有效梯度"的塌陷

更麻烦的是,渲染并非单个高斯独立成像,而是带有前后层叠、alpha compositing 和 visibility 排序。于是,从错误位置移动到正确位置,并不一定存在一条 loss 单调下降的路径。pixelSplat 论文把这一点说得非常直接:即使某个 Gaussian 已经足够接近正确位置,仍需要存在一条 loss decreases monotonically 的路径;但在 differentiable rendering 中,这通常不成立,因为 Gaussian 需要穿越空域,而在这段过程中它可能错误遮挡背景特征。

这可以进一步形式化为路径问题。设 μ ( t ) \mu(t) μ(t) 是从错误位置 μ 0 \mu_0 μ0 到正确位置 μ 1 \mu_1 μ1 的连续轨迹,若要靠梯度下降把 Gaussian 拉回去,理想情况应满足
d d t L ( μ ( t ) ) < 0 , t ∈ [ 0 , 1 ] . (24) \frac{d}{dt}\mathcal{L}(\mu(t)) < 0, \qquad t\in[0,1]. \tag{24} dtdL(μ(t))<0,t∈[0,1].(24)

但在遮挡切换点、可见表面切换点以及背景前景交错区域, L ( μ ( t ) ) \mathcal{L}(\mu(t)) L(μ(t)) 往往会出现非单调波动,甚至先升后降。此时,标准梯度下降会停在某个局部稳定但几何错误的位置。换句话说,primitive regression 的困难并不只是"信号弱",而是"路径坏"。这也是为什么单纯加大 backbone 或训练数据,并不能从根本上消除 mean localization 的不稳定。


3.3 可微采样做了什么:不是直接求最优位置,而是先在分布上优化

pixelSplat 的关键转向,是把对 μ \mu μ 的直接优化,改成对深度分布 q p ( b ) q_p(b) qp(b) 的优化。也就是说,优化变量从一个连续点估计,变成一组概率质量:
μ p ; ⟸ ; b ∼ q p ( ⋅ ) , d p = d b + δ p , b . (25) \mu_p ;\Longleftarrow; b\sim q_p(\cdot),\quad d_p=d_b+\delta_{p,b}. \tag{25} μp;⟸;b∼qp(⋅),dp=db+δp,b.(25)

这样一来,训练初期不需要让网络立刻把全部概率质量压到唯一正确位置,而可以先在若干 plausible buckets 上分配概率,再通过渲染损失逐步强化正确桶、削弱错误桶。论文第 4.2 节明确写道:他们在前向时采样 bucket,并让网络预测 probabilities 而不是 depth directly。

从优化几何上看,这相当于把原本在 3D 空间中难以穿越的离散吸引域,先搬到一个概率单纯形上处理。原先的困难是:Gaussian 必须真的从错误空间位置移动到正确空间位置;现在的策略是:Gaussian 可以"在每次前向中重新出生"于不同深度桶,而训练则在更平滑的概率空间中逐步收缩支持集。于是,网络不必依赖一条从错误位置连续滑向正确位置的几何路径,而是通过改变采样分布,让正确假设出现得越来越频繁。

这正是 pixelSplat 论文所说 "implicitly spawned or deleted during training" 的含义。需要强调的是,这里所谓"spawn / delete"并不是显式结构编辑,而是概率质量重排带来的统计意义上的出现 / 消失。相比原始 3DGS 的非可微 density control,它更适合 generalizable、需要端到端反传的设定。


3.4 reparameterization trick 在这里如何起作用

问题随之而来:采样本身是非可导的。若 b ∼ C a t ( q p ) b\sim \mathrm{Cat}(q_p) b∼Cat(qp),则 μ p \mu_p μp 对 q p q_p qp 的梯度无法直接通过标准反传获得。pixelSplat 的解决办法,是一个很有代表性的工程-优化折中:把采样到的深度桶概率,复用为该 Gaussian 的 opacity。论文明确写道,他们将 sampled bucket 的概率值赋给 Gaussian opacity,从而把 loss 对 opacity 的梯度转移给 depth probability buckets。作者并给出直观解释:如果采样到正确深度,梯度会增大其 opacity,也就提高其后续被采样的概率;若采样到错误深度,则梯度会减小 opacity,降低其继续被采样的概率。

抽象地写,可记
b ∼ q p ( ⋅ ) , α p = q p ( b ) . (26) b \sim q_p(\cdot),\qquad \alpha_p = q_p(b). \tag{26} b∼qp(⋅),αp=qp(b).(26)

于是反向中,损失对 α p \alpha_p αp 的梯度会影响到对应 bucket 概率:
∂ L ∂ q p ( b ) ≈ ∂ L ∂ α p . (27) \frac{\partial \mathcal{L}}{\partial q_p(b)} \approx \frac{\partial \mathcal{L}}{\partial \alpha_p}. \tag{27} ∂qp(b)∂L≈∂αp∂L.(27)

这当然不是严格意义上对离散采样的无偏梯度估计,但它构造出了一条足够实用、与 renderer 兼容、且能把"采样结果是否有用"反馈给 bucket probability 的学习通道。

从学术上看,这一招的价值不在于它多么"纯粹",而在于它非常准确地抓住了问题结构:Gaussian 在渲染中本就通过 opacity 参与 compositing,因此把"这个深度桶是否值得保留"的信用分配,借道 opacity 传给 depth distribution,是一种极其贴合表示本身的重参数化。换句话说,它不是外加的 trick,而是把 representation semantics 和 gradient routing 对齐了。


3.5 可微采样缓解了什么,又没有解决什么

必须克制地说,pixelSplat 的 differentiable sampling 缓解 了 local minima,但没有从根本上消除几何歧义。

它缓解的,是下面这类失败模式:

  1. 初期只能猜到若干候选深度,无法一次命中唯一正确值;
  2. 错误单点回归导致 primitive 完全失去有效梯度;
  3. generalizable 场景下不能依赖非可微 pruning / splitting heuristic;
  4. 需要在 end-to-end 系统中维持 Gaussian representation 的可微性。

但它没有解决的,是更根本的结构性问题:

  1. 候选深度仍主要沿单个 ray 组织,而不是在真正的 3D structure-aware latent 中组织;
  2. 多视图之间的一致性主要依赖编码器与渲染监督间接形成,而不是显式几何 matching;
  3. 遮挡、重复纹理、低纹理区域仍然可能让多个深度桶长期竞争;
  4. 正确中心定位仍然是主瓶颈,因此后续方法很自然会把问题进一步转化为 depth / geometry estimation。MVSplat 就明确把"accurately localize the Gaussian centers"作为目标,并引入 plane-sweeping cost volume 来提供几何线索。

因此,本章可以收束成一个非常关键的判断:

Differentiable sampling improves gradient access to the right hypothesis, \text{Differentiable sampling improves gradient access to the right hypothesis,} Differentiable sampling improves gradient access to the right hypothesis,
but it does not yet make the hypothesis space itself truly 3D-structured. (28) \text{but it does not yet make the hypothesis space itself truly 3D-structured.} \tag{28} but it does not yet make the hypothesis space itself truly 3D-structured.(28)

这句话,正是路线一与后续路线二、路线五分叉的理论边界。


4. pixel-aligned 方案为什么天然简单

4.1 "简单"不是贬义,而是路线一最大的工程魅力

到这里可以更准确地理解"pixel-aligned 方案为什么天然简单"。这里的"简单"并不意味着任务容易,而是指它在系统闭环上极其短:输入是图像,编码器是 2D backbone,输出头是 dense per-pixel prediction,几何 lifting 通过相机射线完成,渲染则直接复用 3DGS 的 fast visibility-aware splatting。Splatter Image 把这一点说得非常明确:用 2D image 作为 3D Gaussians 的 container,可以把 reconstruction 问题直接化约为一个 image-to-image neural network,并只使用高效的 2D operators;而原始 3DGS 已经证明了 Gaussian renderer 同时支持高质量训练与实时渲染。

如果把路线一的最小系统写成函数复合,可以得到
G = U ∘ H ∘ E ( I v , Π v v = 1 M ) , (29) \mathcal{G}= \mathcal{U} \circ H \circ E \big({I_v,\Pi_v}_{v=1}^M\big), \tag{29} G=U∘H∘E(Iv,Πvv=1M),(29)

其中 E E E 是图像编码器, H H H 是 per-pixel Gaussian prediction head, U \mathcal{U} U 是 unprojection / Gaussian construction。随后通过 renderer R \mathcal{R} R 得到监督图像:
I ^ t = R ( G , Π t ) . (30) \hat I_t = \mathcal{R}(\mathcal{G},\Pi_t). \tag{30} I^t=R(G,Πt).(30)

这条链路的每个模块都是"视觉系统里最标准、最成熟、最容易替换"的部件,因此路线一特别适合作为起步范式:它没有强迫研究者先解决新的 3D 数据结构、复杂集合操作或昂贵体渲染,而是用最短路径把 2D perception 与 3D explicit rendering 连起来。


4.2 它为什么容易与已有 2D backbone 兼容

pixel-aligned 的另一个"天然简单",来自它与视觉工业栈的高度兼容。

在路线一中,编码器输出通常仍是二维特征图
F v = E θ ( I v ) ∈ R H × W × C , (31) F_v = E_\theta(I_v)\in\mathbb{R}^{H\times W\times C}, \tag{31} Fv=Eθ(Iv)∈RH×W×C,(31)

而 prediction head 只需在每个像素位置读出一个特征向量,再映射成若干 Gaussian 参数:
h ( F v ( u , v ) ) ⟶ ( depth / depth-distribution , Σ , α , ϕ ) . (32) h(F_v(u,v)) \longrightarrow (\text{depth / depth-distribution},\Sigma,\alpha,\phi). \tag{32} h(Fv(u,v))⟶(depth / depth-distribution,Σ,α,ϕ).(32)

这意味着,研究者可以几乎零摩擦地继承已有的 U-Net、FPN、ViT feature pyramid、cross-view attention 模块与 dense prediction 训练范式。Splatter Image 直接使用 image-to-image 架构,并特别强调这种方式能够只依赖 2D convolution;pixelSplat 也把自己的方法明确描述为 two-view image encoder + pixel-aligned Gaussian prediction module。

工程上这有三个直接后果。

第一,数据接口简单。输入依然是标准多视图图像与相机参数,不需要额外的 3D supervision 才能启动。pixelSplat 与 MVSplat 都强调仅依赖 photometric supervision 训练 feed-forward 3DGS;只是路线一和路线二在 center localization 的处理上分道扬镳。

第二,模块替换方便。你可以升级编码器、换 attention、加 epipolar sampling,但只要最终还能在 pixel grid 上产生 feature,整条管线就不需要重写。pixelSplat 正是在这样的兼容框架下,把图像对编码、尺度歧义处理、概率深度采样拼成了统一系统。

第三,可视化与调试直接。因为每个输出槽位仍绑定到输入像素或局部像素区域,开发者可以很容易检查:哪个位置的概率分布发散、哪个区域的高斯密度异常、哪个视图的 lifting 出错。这种"从 feature grid 到 explicit primitives"的可检查性,是路线一能快速形成研究共识的重要原因。pixelSplat 与 Splatter Image 都把"interpretable / explicit"作为结果表达的一部分。


4.3 它为什么便于高效渲染与端到端训练

前馈式 3DGS 若没有高速 renderer,所谓"简单"其实只是一种前端简化;真正让路线一成立的是,后端渲染闭环同样足够短。原始 3DGS 的贡献之一,正是在显式高斯表示之上建立了 fast visibility-aware rendering,支持 anisotropic splatting、快速反传与实时渲染。正因为 renderer 足够高效,像 Splatter Image 这样的方法才敢在训练中直接生成完整图像,并使用 LPIPS 一类 image-level loss;pixelSplat 也才能把 generalizable reconstruction 建立在显式 Gaussian representation 上,而不是退回采样密集、内存昂贵的体渲染。

若把训练开销粗略写成
C ∗ t r a i n ≈ C ∗ e n c o d e + C ∗ p r e d i c t + C ∗ r e n d e r , (33) \mathcal{C}*{train} \approx \mathcal{C}*{encode} + \mathcal{C}*{predict} + \mathcal{C}*{render}, \tag{33} C∗train≈C∗encode+C∗predict+C∗render,(33)

那么在路线一中:

  • C e n c o d e \mathcal{C}_{encode} Cencode 主要来自标准 2D backbone;
  • C p r e d i c t \mathcal{C}_{predict} Cpredict 主要来自 per-pixel dense head;
  • C r e n d e r \mathcal{C}_{render} Crender 来自 Gaussian splatting,而非射线上大量采样的 volume rendering。

这就是为什么路线一经常给人一种"训练直接、推理直接、渲染快"的整体印象。注意,这并不是因为它在几何上没有难题,而是因为它把几何难题尽可能压缩在"中心怎么放"这一个局部模块里,而没有把整套系统都做重。

换句话说,pixel-aligned 的"简单"是一种 pipeline simplicity ,不是 problem simplicity。问题仍然很难,只是难点被集中在 primitive placement,而其余部分则尽可能复用成熟工业部件。


4.4 为什么这条路线具有直觉性、可视化性、可解释性

路线一还有一个很重要但常被忽略的优点:它不仅在实现上短闭环,在认知上也短闭环。

当模型输出的是 pixel-aligned Gaussians 时,研究者天然会把它理解为一种"从图像局部证据 lift 出局部 3D primitive"的过程。这种过程非常便于解释:

  • 某个像素区域为何生成一簇高斯;
  • 某个 ray 上为何出现多峰深度概率;
  • 某个表面为何因为中心错位而出现 speckle / ghosting;
  • 某个高斯为何可直接被编辑、裁剪、可视化。

pixelSplat 把输出结果描述为 interpretable and editable 3D radiance field;Splatter Image 也反复强调显式高斯集合既渲染快又空间效率高。对研究社区而言,这种"结果长得像资产、错误长得像几何问题"的表达形式,比纯隐式场更利于形成共同语言。

从方法论角度看,这种可解释性还有一个更深的意义:它使路线一成为后续所有路线的对照基线。因为只有当你先拥有一个"足够直观的起点范式",你才知道后来引入 cost volume、latent Gaussian、triplane、voxel 或 adaptive placement 到底在修复什么。也正因此,路线一虽然不是终点答案,却是最适合作为研究地图起点的那条路线。


4.5 但"天然简单"也意味着:它更像 2D-driven 3D lifting,而不是 3D 结构化推理

这正是本文必须显式回答的第三个学术问题。

pixel-aligned 方案之所以简单,是因为它把 3D reconstruction 的很多复杂性,都推迟到"局部像素证据如何被 lift 到 3D"这个过程里解决。于是,它天然更接近下面这种计算图:
2D features → ray-conditioned hypotheses → explicit Gaussians → rendering supervision . (34) \text{2D features} \rightarrow \text{ray-conditioned hypotheses} \rightarrow \text{explicit Gaussians} \rightarrow \text{rendering supervision}. \tag{34} 2D features→ray-conditioned hypotheses→explicit Gaussians→rendering supervision.(34)

而不是
global 3D structure reasoning → adaptive primitive placement → renderable Gaussian scene . (35) \text{global 3D structure reasoning} \rightarrow \text{adaptive primitive placement} \rightarrow \text{renderable Gaussian scene}. \tag{35} global 3D structure reasoning→adaptive primitive placement→renderable Gaussian scene.(35)

这两种范式的真正分歧,不在于谁最终都输出高斯,而在于 高斯的组织原则到底来自 2D 局部 lifting,还是来自 3D 结构先验主导的全局决策

路线一选择前者,因此它的系统显得很轻、很直观、很易训练;但这也意味着它天然缺少强 3D interaction。MVSplat 之所以随后把 Gaussian center localization 转向 cost volume / depth estimation,本质上就是在说:只靠 pixel-aligned local features 不足以稳定地完成 center placement,需要更显式的 cross-view geometry cues。这个分歧,不是局部技巧,而是路线层面的分叉。


4.6 本章结论:路线一的"简单",是一种高度成功的最小系统设计

pixel-aligned 方案之所以天然简单,不是因为问题本身简单,而是因为它在系统层面做了极其成功的最小化设计:

它复用了 2D backbone,复用了相机射线几何,复用了显式 Gaussian representation,复用了 3DGS 的高速 renderer,于是把 feed-forward 3D reconstruction 压缩成一条极短、极清晰、极可操作的工程闭环。Splatter Image 与 pixelSplat 分别从单视图对象与双视图 generalizable reconstruction 两端证明了这种闭环可以成立;这也是路线一成为"起步范式"而不是普通分支的根本原因。

但也必须同时指出:这套最小系统设计的前提,是让 2D 局部对齐特征承担 3D primitive placement 的主要责任。工程上这非常划算,几何上却埋下了结构性瓶颈。也正因为如此,路线一在证明"前馈式 3DGS 可以成立"之后,几乎立刻把研究问题推向了下一个层面:

  • 既然高斯已经能前馈预测,那么高斯到底该怎样在 3D 中被更合理地组织?

5. 为什么开始走向 latent Gaussian

5.1 latentSplat 不是重复 pixelSplat,而是在路线一内部把"显式回归"推向"潜变量表示"

如果说 pixelSplat 解决的是"前馈式高斯能否被直接预测"这一成立性问题,那么 latentSplat 的推进点在于:它开始明确承认,给定少量输入视图,场景重建并不是单一确定解,而更接近一个带条件先验的分布族。

因此,latentSplat 没有停留在"把每个高斯显式回归成 RGB / SH 系数"的框架里,而是把高斯推进到一个 3D latent space 中,用一组 variational feature Gaussians 表示条件分布,再通过轻量 generative 2D decoder 把 splatted latent features 解码为图像。

论文摘要与方法部分都明确写到:latentSplat 预测的是 semantic Gaussians in a 3D latent space,其核心表示是 variational 3D Gaussians,最终通过 Gaussian splatting 与一个 light-weight generative 2D architecture 完成新视角合成。

形式上,latentSplat 把路线一的输出从"显式属性高斯"改写为"带潜变量分布的高斯集合":

h i = h μ , i + ϵ i ⊙ h σ , i , ϵ i ∼ N ( 0 , I ) . (39) \mathbf{h}i= \mathbf{h}{\mu,i} + \epsilon_i \odot \mathbf{h}_{\sigma,i}, \qquad \epsilon_i \sim \mathcal{N}(\mathbf{0},\mathbf{I}). \tag{39} hi=hμ,i+ϵi⊙hσ,i,ϵi∼N(0,I).(39)

其中 x i \mathbf{x}_i xi 是 3D 位置, S i , R ∗ i \mathbf{S}_i,\mathbf{R}*i Si,R∗i 描述 Gaussian 的尺度与朝向, o i o_i oi 是 opacity, c ∗ i \mathbf{c}*i c∗i 是显式 RGB 相关系数,而 h ∗ μ , i , h ∗ σ , i \mathbf{h}*{\mu,i},\mathbf{h}*{\sigma,i} h∗μ,i,h∗σ,i 则参数化该 Gaussian 在 feature / spherical-harmonic coefficient 空间中的正态分布。latentSplat 论文在其表示定义中就是这样组织 scene representation 的,并明确强调这些 variational parameters 用于刻画不同位置的不确定性。

这意味着,latentSplat 并不是简单地"把颜色换成特征"。更准确地说,它把路线一内部的 high-level assumption 从
one input → one deterministic Gaussian set \text{one input} \rightarrow \text{one deterministic Gaussian set} one input→one deterministic Gaussian set

改成了

one input → a conditional distribution over Gaussian scenes . (37) \text{one input} \rightarrow \text{a conditional distribution over Gaussian scenes}. \tag{37} one input→a conditional distribution over Gaussian scenes.(37)

一旦承认 reconstruction 是 underconstrained 的,网络就不该只学习一个均值解;它还需要学习"合理解族"在表示空间中的分布。latentSplat 在引言中明确批评纯回归方法通常只学习 all possible solutions 的 mean,而 generative approaches 更擅长建模多解分布;它的方法目标正是结合 regression-based 与 generative approaches 的优点。


5.2 latent Gaussian 与显式 RGB Gaussian 的根本差异,不在"存什么",而在"把不确定性放在哪里"

路线一早期的显式 Gaussian,可以抽象写成
G i explicit = ( μ i , Σ i , α i , ϕ i ) , (38) G_i^{\text{explicit}}= (\mu_i,\Sigma_i,\alpha_i,\phi_i), \tag{38} Giexplicit=(μi,Σi,αi,ϕi),(38)

其中 ϕ i \phi_i ϕi 常被理解为 RGB 或 SH 颜色系数。这样的表示当然清晰,也便于直接渲染;但它默认每个 Gaussian 的 appearance 是一个确定值,因而更像一个 point estimate of scene explanation。latentSplat 则把 appearance / semantic content 的一部分提升为随机变量,对每个 Gaussian 单独存储 feature distribution 的均值与方差,再通过重参数化采样得到具体 semantic Gaussian。论文方法部分明确区分了 variational Gaussians 与 semantic Gaussians:前者描述 conditioned on input views 的所有可能 3D reconstructions 的分布,后者则是从该分布采样出的某一个具体实例,用于一致的新视角渲染。

其采样过程可形式化写为
h i = h ∗ μ , i + ϵ i ⊙ h ∗ σ , i , ϵ i ∼ N ( 0 , 1 ) , (39) \mathbf{h}_i= \mathbf{h}*{\mu,i} + \epsilon_i \odot \mathbf{h}*{\sigma,i}, \qquad \epsilon_i \sim \mathcal{N}(0,\mathbf{1}), \tag{39} hi=h∗μ,i+ϵi⊙h∗σ,i,ϵi∼N(0,1),(39)

从而得到一组具体的 semantic Gaussians:
G v a r = { ( x i , S i , R i , o i , c i , h μ , i , h σ , i ) } i = 1 N . (36) \mathcal{G}_{\mathrm{var}}= \left\{ \left( \mathbf{x}_i,\mathbf{S}i,\mathbf{R}i,o_i,\mathbf{c}i, \mathbf{h}{\mu,i},\mathbf{h}{\sigma,i} \right) \right\}{i=1}^{N}. \tag{36} Gvar={(xi,Si,Ri,oi,ci,hμ,i,hσ,i)}i=1N.(36)

这正对应 latentSplat 论文中的 sampling semantic Gaussians 公式与解释:通过 reparameterization trick 对 feature coefficients 采样,使 sampled coefficients 的梯度能够回传到 reference-view encoder。

需要强调的是,这里的"latent"并不只是为了压缩维度。它真正改变的是 不确定性的承载位置。在显式 RGB Gaussian 里,不确定性通常只能通过模糊颜色、平均化外观或不稳定的几何来间接体现;在 latent Gaussian 里,不确定性被显式编码在 feature distribution 中。这意味着模型可以在保持几何与渲染管线高效的同时,把"少视图条件下存在多个合理解释"这一事实放进表示本身,而不是留给后续误差去被动承受。


5.3 latentSplat 为什么体现出"回归式 + 生成式"的混合趋势

latentSplat 的关键判断,是纯回归与纯生成各自都不够。论文引言明确指出,regression-based approaches 效率高,但通常只预测所有可能解的均值;generative approaches 虽能建模多样性,却往往牺牲推理效率与高分辨率扩展性。latentSplat 因此选择了一条中间道路:前半段仍保留路线一熟悉的 feed-forward regression pipeline,用编码器直接产生 3D Gaussian representation;后半段则引入 variational latent sampling 与轻量 VAE-GAN decoder,让输出不再局限于单一确定场景解释。

从系统角度看,它的计算图可以写成
I v , Π v ∗ v = 1 2 ; → E ∗ epi ; G ∗ v a r ; → sample ; G ∗ s e m ; → R ∗ g s ; F t ; → D ∗ gen ; I ^ t . (41) {I_v,\Pi_v}*{v=1}^{2} ;\xrightarrow{E*{\text{epi}}}; \mathcal{G}*{var} ;\xrightarrow{\text{sample}}; \mathcal{G}*{sem} ;\xrightarrow{\mathcal{R}*{gs}}; F_t ;\xrightarrow{D*{\text{gen}}}; \hat I_t. \tag{41} Iv,Πv∗v=12;E∗epi ;G∗var;sample ;G∗sem;R∗gs ;Ft;D∗gen ;I^t.(41)

其中 E epi E_{\text{epi}} Eepi 是由双视图输入驱动的编码器,论文明确说明其 encoder 是在 pixelSplat 的 epipolar transformer 基础上适配而来; R ∗ g s \mathcal{R}*{gs} R∗gs 是 Gaussian splatting renderer; D ∗ gen D*{\text{gen}} D∗gen 则是轻量的 VAE-GAN / VAE-style decoder,用于将 rendered feature image 解码为最终 RGB 图像。论文还说明该 decoder 是 purely convolutional,并以 multi-scale features 作为输入。

这也是为什么 latentSplat 在路线一内部显得非常关键。它没有放弃路线一"从图像直接前馈到高斯"的基本接口,却把路线一的表达能力从 deterministic explicit regression 推向了 probabilistic latent representation。换句话说,pixelSplat 主要在问"center 能否被稳定预测",而 latentSplat 已经开始问"预测出来的高斯是否应当生活在一个更有表达力、能承载多解与语义的空间里"。这正是路线一内部第一次明显的升级。


5.4 为什么 latent Gaussian 比显式像素颜色高斯更有潜力

这一点不能只从"指标更好"来理解,而必须从表示论角度理解。

第一,latent Gaussian 允许把高斯的外观表示从 low-level color coefficients 提升到更抽象的 feature domain。论文明确说明 latentSplat 的 scene appearance 是通过 attached view-dependent feature vectors 来描述的,并利用 spherical harmonic coefficient space 建模 feature 分布。这样做的直接好处是:decoder 可以在 2D image space 中使用更强的 learned prior 来补偿仅靠显式 RGB 难以恢复的细节与统计规律。

第二,latent Gaussian 让"一个场景有多种合理解释"可以在表示内部被组织。论文明确写到,variational Gaussians 对应所有可能 3D reconstructions 的分布,而 semantic Gaussians 对应其中一个 sample。这意味着模型不再被迫把多解压成平均值。对于少视图、遮挡或未观测区域,这种能力尤其关键,因为"平均化的显式解"往往在视觉上对应模糊、ghosting 或缺失,而"从条件分布中采样出的某个具体解释"则更容易形成一致的新视角结果。

第三,latent Gaussian 把路线一推进到更强的泛化设定。latentSplat 的摘要与引言都强调,它旨在同时兼顾 fast inference、high resolution scalability 与 extrapolated view generalization,并且只依赖 real video data 训练。这里的关键不只是训练数据来源,而是:一旦表示空间更偏 semantic / latent,模型就更可能把重建从"记住显式颜色模式"提升为"学习条件先验"。

当然,这并不意味着 latent Gaussian 已经解决了路线一的结构瓶颈。它提升的是 表示弹性与不确定性建模能力,不是彻底改写 primitive placement 机制。几何位置、opacity 与 shape 依旧需要在路线一的基本框架内被预测;论文甚至明确提到,它仍保留 explicit RGB coefficients,因为 Gaussian 的 shape parameters 更适合在 RGB signals 上优化。换句话说,latentSplat 代表的是路线一内部的升级,而不是对路线一本体的背离。


5.5 本章结论:latentSplat 标志着路线一从"显式高斯回归"走向"概率化的语义高斯表示"

pixelSplat asks how to place Gaussians; latentSplat starts asking what space Gaussians should live in. (42) \text{pixelSplat asks how to place Gaussians;} \qquad \text{latentSplat starts asking what space Gaussians should live in.} \tag{42} pixelSplat asks how to place Gaussians;latentSplat starts asking what space Gaussians should live in.(42)

这句话的含义是,pixelSplat 把中心定位变成可训练问题,而 latentSplat 则把高斯表示从显式颜色参数推进到了 latent / semantic / variational space。它依旧保留路线一最核心的接口------前馈预测高斯、用 Gaussian splatting 进行高效渲染------但同时开始触碰三个更大的主题:不确定性建模、生成式解码以及更强的数据先验。也正因为此,latentSplat 可以被看作路线一内部的第一次真正升级:不是改变路线的起点范式,而是在这一范式内部显式扩展其表达边界。


6. 这条路线的优势:训练直接、渲染高效、编辑友好

6.1 路线一最宝贵的地方,是它把前馈式 3D Gaussian reconstruction 变成了清晰问题

路线一的重要性,不在于它已经给出了最合理的 3D 结构组织方式,而在于它第一次把 feed-forward 3D Gaussian reconstruction 定义成一个可以清晰比较、清晰实现、清晰迭代的问题。pixelSplat 明确把目标定义为:从图像对前馈预测由 3D Gaussian primitives 参数化的 radiance field;latentSplat 则把这一接口扩展到 variational feature Gaussians,但仍保持"输入少量视图,输出显式 Gaussian scene"的问题定义不变。这个统一接口,使得后续工作不再需要反复证明"是否应该输出高斯",而可以把研究焦点转移到 center localization、view aggregation、structured latent、primitive placement 等更细的问题上。

形式上,路线一把任务固定成
I v , Π v v = 1 M ⟶ G ⟶ I ^ t , (43) {I_v,\Pi_v}_{v=1}^{M} \longrightarrow \mathcal{G} \longrightarrow \hat I_t, \tag{43} Iv,Πvv=1M⟶G⟶I^t,(43)

其中中间变量 G \mathcal{G} G 是显式、可渲染、可检查的 3D Gaussian 表示。这个中间接口本身就是路线一最大的遗产之一。因为一旦中间表示显式化,训练目标、渲染闭环、调试手段与下游资产操作都被统一到了同一个对象上。相比隐式 radiance field 只在 query 时显式化颜色 / 密度,Gaussian scene 是一种"训练中即资产化"的表示。


6.2 架构简洁:2D backbone + Gaussian head + splatting renderer 的短闭环

路线一在工程上最有吸引力的点,是系统闭环极短。Splatter Image 把 2D image 当作 3D Gaussians 的 container,并为每个像素预测一个 Gaussian;pixelSplat 则在双视图场景下引入 epipolar transformer 和 probabilistic Gaussian prediction;latentSplat 继续沿用这一基本骨架,只是在高斯 feature 表示与 decoder 端引入 variational / generative 组件。尽管方法不断演化,但其主干始终没有变:图像编码器、每像素或局部对齐 prediction head、相机几何 lifting、Gaussian renderer

这条链路可以抽象写为
E θ → H θ → U → R ∗ g s , (44) E_{\theta} \rightarrow H_{\theta} \rightarrow \mathcal{U} \rightarrow \mathcal{R}*{gs}, \tag{44} Eθ→Hθ→U→R∗gs,(44)

其中 E ∗ θ E*{\theta} E∗θ 负责提取图像特征, H θ H_{\theta} Hθ 负责预测 Gaussian-related parameters, U \mathcal{U} U 负责完成 ray-conditioned unprojection / placement, R g s \mathcal{R}_{gs} Rgs 则完成 fast differentiable splatting。因为原始 3DGS 已经提供了高效的 visibility-aware renderer,路线一不需要重新发明训练后端,而只需把"怎么产出 Gaussian"做好即可。

工程上这意味着三件事:训练代码路径更短、模块更容易替换、错误更容易定位。对研究原型和企业研发都一样重要。因为一个可扩展方向往往先需要"最小闭环成立",再谈结构优化。路线一恰恰完成了这一步。


6.3 训练效率与推理速度:高效 renderer 让显式高斯前馈化真正可行

原始 3DGS 的重要基础作用在于:它通过 3D Gaussians、anisotropic covariance 与 fast visibility-aware splatting,避免了 volumetric methods 在空空间中的大量无效计算,并实现了高质量实时渲染。路线一得以快速成立,正是因为它站在这个渲染底座之上。pixelSplat 的摘要明确把 real-time and memory-efficient rendering 作为其可扩展 generalizable reconstruction 的关键组成部分;latentSplat 同样强调 efficient Gaussian splatting 与 fast decoder 的组合,使高分辨率 generalizable reconstruction 成为可能。

这使路线一在训练和推理上都具备明显优势。训练时,loss 可以直接定义在完整渲染图像上,而不必忍受高代价 volume rendering;推理时,输出本身就是 Gaussian scene,而不是还需要 per-scene optimization 或额外显式化的隐式场。也正因为这一点,路线一的方法更容易具备"立即可用"的系统气质:输入视图之后,不是得到一个慢速待优化的模型,而是得到一个可以立刻被渲染、检查甚至操作的场景表示。


6.4 表示可解释、可编辑、具有资产感

pixelSplat 在其 Open Access 页面和摘要中直接把输出描述为 interpretable and editable 3D radiance field;这不是修饰语,而是路线一的结构性优势。因为 Gaussian 是显式 primitive,每个元素都有位置、尺度、朝向、opacity 和 appearance / latent feature。相比隐式 representation,这类输出天然适合做可视化分析、局部裁剪、属性修改以及后续资产化处理。Splatter Image 同样强调其显式 Gaussian set 的渲染速度和空间效率,这本质上都在指向一种"可以被系统工程接住"的表示。

从企业研发视角看,这一点尤其重要。因为真正能接入产品和工作流的表示,往往不只是"能渲染",还必须"能定位、能检查、能调试、能下游利用"。路线一恰好满足这个条件。你可以把它看成一种介于传统点云 / mesh 与纯隐式场之间的中间资产:它比隐式场更可操作,又比传统几何更贴近 differentiable rendering 与学习范式。


6.5 路线一的优势总结:它让前馈式 3DGS 成为可复现、可比较、可工程化的话题

因此,第 6 章的判断可以压缩为:

Route-1 matters because it turns feed-forward 3DGS \text{Route-1 matters because it turns feed-forward 3DGS} Route-1 matters because it turns feed-forward 3DGS
from a possibility into a reproducible research program. (45) \text{from a possibility into a reproducible research program.} \tag{45} from a possibility into a reproducible research program.(45)

它的架构足够简洁,训练链路足够直接,渲染底座足够高效,表示形式足够显式,结果资产感足够强。真正宝贵的不是某个 benchmark 数字,而是它把"前馈式 3D Gaussian reconstruction"稳定地定义为一个清晰、可复现、可比较、可工程化的研究问题。后续路线之所以能快速分化,恰恰因为这个起点已经被路线一建立起来了。


7. 这条路线的硬伤:3D 交互弱、密度分配偏置、遮挡不稳

7.1 3D 交互能力弱:它仍然主要是 2D 局部特征驱动

路线一最大的结构性局限,不是某个具体模块不够强,而是它的推理主轴仍是 2D-driven 3D lifting。无论是 Splatter Image 的"每像素一个 Gaussian",还是 pixelSplat 的"pixel-aligned features + ray-wise probability distribution",抑或 latentSplat 在 pixelSplat epipolar encoder 基础上的扩展,它们的共同点都是:3D Gaussian 的产生首先绑定于图像平面的局部特征槽位,而不是先在显式 3D 结构坐标中建立全局推理,再决定 primitive placement。Splatter Image 明确把 2D image 当作 3D Gaussians 的 container;latentSplat 则明确说明其 encoder 适配自 pixelSplat 的 epipolar transformer。

这意味着,路线一的"3D reasoning"更准确地说是 ray-conditioned local lifting ,而不是真正的 structure-aware global 3D reasoning。它当然可以利用多视图输入和 epipolar context,但其高斯组织原则仍主要由 2D feature grid 驱动。

换句话说,网络更像是在回答"这条 ray 上哪里可能有一个合适的 Gaussian",而不是"整个 3D 场景应如何被结构化地分解和占用"。这就是为什么后续一旦需要更强几何一致性或更稳定中心定位,研究路线很自然会转向 cost volume、voxel / triplane latent 或更全局的 token aggregation。


7.2 Gaussian density 分配容易受视图偏置影响

路线一的第二个核心问题,是高斯密度分配与输入视图采样方式深度绑定。Splatter Image 直接采用"每像素一个 Gaussian"的设计,甚至明确写到每个像素存一个 Gaussian 参数,且这些 Gaussians 主要位于 camera rays 上;pixelSplat 虽然在 mean prediction 上更灵活,但其高斯仍然由 pixel-aligned feature slots 触发。于是,高斯数量和初始候选分布,本质上是由"图像里有多少像素、哪些区域被看见、从什么视角被看见"决定的,而不是由"场景在 3D 中哪里更复杂、哪里需要更高密度 primitive"直接决定的。

这会带来一个非常本质的偏置。设输入视图集合为 V \mathcal{V} V,则路线一中的高斯数量分布更接近
ρ G ( x ) ≈ f ! ( ∑ v ∈ V 1 x is visible in v , image feature saliency ) , (46) \rho_{\mathcal{G}}(\mathbf{x}) \approx f!\Big( \sum_{v\in\mathcal{V}} \mathbf{1}{\mathbf{x}\ \text{is visible in } v}, \ \text{image feature saliency} \Big), \tag{46} ρG(x)≈f!(v∈V∑1x is visible in v, image feature saliency),(46)

而不是
ρ G ( x ) ≈ g ! ( true 3D scene complexity at x ) . (47) \rho_{\mathcal{G}}(\mathbf{x}) \approx g!\big( \text{true 3D scene complexity at }\mathbf{x} \big). \tag{47} ρG(x)≈g!(true 3D scene complexity at x).(47)

换句话说,高斯密度更容易被 observation pattern 驱动,而不是被 intrinsic scene structure 驱动。对前表面、强纹理区域、主视角覆盖区域,pixel-aligned 方法通常更容易生成足够多的高斯;对背面、遮挡区、低纹理区或需要跨视角整合才能明确的区域,则更容易密度不足或分配失衡。这个问题在路线一起步阶段可以被容忍,因为它优先解决的是成立性;但一旦追求结构稳定性,它就会成为核心瓶颈。


7.3 多视图一致性瓶颈:局部 pixel-aligned 特征天然难以保证全局几何一致

这是本文必须明确回答的第二个学术问题。

多视图一致性要求的是:来自不同输入视图的局部证据,最终应在同一 3D 结构上达成一致解释。然而在路线一中,不同视图的证据最初是以各自图像平面上的局部特征存在的。即便采用 epipolar transformer 或 cross-view aggregation,这些证据的原始承载体仍是 2D-aligned slots,而不是一个共享的显式 3D occupancy / surface / cost structure。于是,多视图一致性更多是通过"网络学会在局部特征层面对齐"和"renderer 用输出图像误差间接惩罚不一致"来获得,而不是通过先验上严格的 3D matching structure 来强制建立。

从几何上看,问题可以写成:对两个视图中的匹配像素 p 1 , p 2 p_1,p_2 p1,p2,理想情况应有
μ ( p 1 ) ≈ μ ( p 2 ) ≈ X ⋆ , (48) \mu(p_1) \approx \mu(p_2) \approx X^\star, \tag{48} μ(p1)≈μ(p2)≈X⋆,(48)

其中 X ⋆ X^\star X⋆ 是同一真实表面点。但在 pixel-aligned 框架里, μ ( p 1 ) \mu(p_1) μ(p1) 与 μ ( p 2 ) \mu(p_2) μ(p2) 往往先由各自局部特征产生候选,再通过网络参数共享与渲染损失间接趋同。若局部纹理重复、遮挡严重或基线过大,则两者容易落入不同的局部极值,从而在 3D 中形成 duplicated or inconsistent Gaussians。pixelSplat 已经把 sparse and locally supported representation 的 local minima 视为核心问题;MVSplat 则更进一步,把"accurately localize the Gaussian centers"直接转写为 cost volume / plane sweeping 所支持的 depth estimation 问题,这恰恰说明局部 pixel-aligned 证据不足以稳定实现跨视图几何一致。

低纹理、重复纹理与遮挡区尤其容易暴露这一瓶颈。因为在这些区域,2D 局部外观本身就不足以唯一标识 3D 对应关系;若没有更强的 3D structure-aware aggregation,pixel-aligned features 往往会把不确定性转化为多峰深度猜测、错误中心定位或不稳定 opacity 分配。latentSplat 的 variational 表示在一定程度上能够更好地承载这种不确定性,但它并没有从根本上改变"证据首先活在 2D local grid 上"的事实,因此多视图一致性的结构性瓶颈仍然存在。


7.4 Gaussian mean localization 仍然是主瓶颈

即使 pixelSplat 已经把中心定位改写为"概率分布 + 可微采样",这一问题也并没有被彻底解决。相反,它被更清楚地暴露出来了:路线一中最难的不是渲染器,不是颜色预测,甚至不主要是尺度与 opacity,而是 Gaussian center 到底应放在哪里。pixelSplat 的摘要直接把其方法动机写成"to overcome local minima inherent to sparse and locally supported representations, we predict a dense probability distribution over 3D and sample Gaussian means";MVSplat 的摘要则更进一步明确写出:"To accurately localize the Gaussian centers, we build a cost volume representation via plane sweeping." 两篇工作在不同方向上实际上都承认了同一件事:center localization 是主矛盾。

这也解释了为什么后续路线会迅速分化。只要你承认 mean localization 是瓶颈,就会出现至少三种自然反应:

  1. 把它进一步转化为显式几何 / 深度问题,于是出现路线二的 cost volume / depth-first;
  2. 把它放进更结构化的 3D latent 或中间表示里,于是出现 TGS 这类 hybrid representation 与更广义的 structured latent 路线;TGS 在方法与限制部分都明确指出,directly regressing 3D Gaussians from images remains challenging,并因此采用了 hybrid Triplane-Gaussian intermediate representation。
  3. 重新思考 primitive placement 本身,不再接受"由 pixel slots 触发高斯"的默认分配规则,而去寻找更自适应的 placement 机制。这个方向在路线一内部尚未真正完成,但其问题意识已经被路线一清楚地暴露出来。

7.5 它更像"2D 驱动的 3D lifting",而不是"真正从 3D 出发的结构化推理"

这是本文必须明确回答的第三个学术问题,而它其实是前述所有局限的总根源。

路线一并不是没有 3D 几何,而是其 3D 几何主要以 相机射线约束 + renderer feedback 的形式存在,而不是以一个统一的 3D structure-aware intermediate representation 存在。Splatter Image 的 image-as-container 设计、pixelSplat 的 ray-wise probability distribution、latentSplat 对 pixelSplat epipolar encoder 的延续,都在说明:路线一的默认出发点始终是"从 2D 局部槽位出发,向 3D 提升"。

真正的分歧不在于最终都输出 Gaussians,而在于 Gaussians 是被 3D structure 组织,还是被 2D evidence 驱动。若是前者,表示会更自然地支持全局几何一致性、自适应密度分配和复杂遮挡推理;若是后者,系统则更轻、更快、更容易实现,但必须承受 observation bias、弱 3D interaction 和 center localization 的长期压力。TGS 选择 hybrid Triplane-Gaussian representation,正是因为 authors 认为 directly regressing 3D Gaussians is challenging;MVSplat 选择 cost volume,则是因为 authors 认为 center localization should be geometry-guided。它们都在用不同方式回答路线一留下的同一个问题。

因此:

Route-1 is successful as a 2D-driven lifting paradigm, \text{Route-1 is successful as a 2D-driven lifting paradigm,} Route-1 is successful as a 2D-driven lifting paradigm,
but weak as a fully 3D-structured reasoning paradigm. (49) \text{but weak as a fully 3D-structured reasoning paradigm.} \tag{49} but weak as a fully 3D-structured reasoning paradigm.(49)

这句话既解释了它为何成功,也解释了它为何很快暴露出硬伤。


8. 这条路线对后续所有方法留下了什么遗产

8.1 它留下了前馈式 3DGS 的问题定义

路线一留下的第一项核心遗产,是问题定义本身。pixelSplat 已经把"从少量输入图像,前馈预测显式 3D Gaussian radiance field"建立成可操作任务;latentSplat 则在保持这一任务边界的同时,把表示推进到 variational latent Gaussian。自此之后,后续方法不再需要重新定义 feed-forward 3D reconstruction 应该输出什么表示,而是默认接受"显式 Gaussian scene"作为一个强有力的候选接口。

这一定义的价值在于,它统一了训练、推理与交付:训练时直接通过 renderer 监督;推理时直接得到场景资产;比较时可以在统一渲染与表示基础上讨论方法差异。换句话说,路线一把一个原本分散的研究议题,组织成了一个有共同输入、共同中间表示和共同输出语义的研究程序。


8.2 它留下了 per-pixel Gaussian prediction 这一最小可行接口

第二项遗产,是 per-pixel / pixel-aligned Gaussian prediction 作为最小可行接口。即便后续方法未必继续坚持这一形式,它们也几乎都必须先回应它:是沿用、修补,还是替换。Splatter Image 把 image 作为 3D Gaussian container;pixelSplat 把 per-pixel prediction 推向 probabilistic center localization;latentSplat 则在此基础上引入 variational latent feature Gaussians。它们共同证明:前馈式 3DGS 至少有一条很短的、可运行的接口可以站住脚。

这条接口之所以重要,不是因为它最终必胜,而是因为它给后来者提供了一个非常明确的 baseline form:

如果你想做得更好,你必须说明自己相对于 pixel-aligned interface 修复了什么。是 center localization?是 multi-view consistency?是 density allocation?还是 global 3D reasoning?这使得整个领域的改进方向变得可诊断、可分解。


8.3 它留下了一个最关键的认识:Gaussian mean localization 是主矛盾

第三项遗产,是路线一帮整个领域识别出了真正的主矛盾。pixelSplat 明确把 Gaussian mean prediction 从普通回归里剥离出来,并围绕 local minima、dense probability distribution 与 differentiable sampling 展开;MVSplat 则进一步把"accurately localize the Gaussian centers"当作路线二的核心起点。后续方法表面上使用了不同结构,但其共同动机很大程度上都指向同一个事实:高斯怎么放,比高斯长什么样更难。

从研究方法论上说,这一认识极其重要。因为它改变了问题分解方式:

scale、opacity、appearance 不再被看作同等难度的并列属性,而被放在"中心位置基本合理"之后考虑。换句话说,路线一迫使大家承认:feed-forward 3DGS 的瓶颈不是只靠更大 backbone 或更多数据就能自然吞掉的,它涉及 primitive placement 这一更底层的表示问题。


8.4 它确认了 Gaussian renderer 是高效训练与推理的底座

第四项遗产,是对 Gaussian renderer 角色的重新确认。原始 3DGS 已经证明显式高斯与 fast visibility-aware splatting 可以同时支持高质量和实时渲染;路线一则进一步证明,这个 renderer 不只适合 per-scene optimization,同样适合作为 generalizable feed-forward reconstruction 的训练与推理底座。pixelSplat 和 latentSplat 都是沿着这个思路构建的:前者用 renderer 直接监督显式高斯,后者则把 renderer 扩展到 feature splatting,再接轻量 decoder。

这项遗产的意义在于,它让后续方法的创新重心不必再放在"要不要换渲染器"上,而可以更多放在前端表示与推理结构上。也就是说,renderer 变成了相对稳定的底座,而 representation learning 成为真正的竞争焦点。


8.5 它留下了显式资产感与可编辑性这条产品化线索

第五项遗产,是显式 Gaussian scene 的资产感。pixelSplat 直接把输出描述为 editable radiance field;Splatter Image 也强调显式 Gaussian container 的高效与可操作性。这些表述指向的是同一件事:路线一不是只在做 NVS score,它实际上让 feed-forward reconstruction 输出了一种可被系统工程接住的中间资产。

这条线索对后续研究与应用都很关键。因为一旦表示本身具备可编辑性,那么 reconstruction、editing、generation、asset authoring 之间就不再是彼此割裂的任务,而可能共享同一组 primitives。后续很多围绕 controllability、editing 和场景资产化的工作,都可以被看作在继承路线一所证明的这一点。


8.6 它也留下了未解问题,并自然导向后续路线

同样重要的是,路线一不是只留下成功经验,也留下了一组非常清晰的未解问题,而这些问题几乎直接决定了后续路线的分叉方向。

第一,若 Gaussian mean localization 仍不稳,那么很自然会转向 geometry / depth-first,这就是路线二,MVSplat 用 plane-sweeping cost volume 明确走上了这条路。

第二,若局部 pixel-aligned evidence 的 3D 组织能力太弱,那么很自然会引入 global token aggregation 或更强先验模型,这就是更偏大重建模型与 Transformer 聚合的路线三。虽然本文不展开,但其问题动机与路线一的局限高度相关。

第三,若直接回归 3D Gaussians 被证明很难,那么很自然会引入更结构化的 3D latent / hybrid representation,这就是 TGS 等方法所提示的路线五。TGS 明确指出 directly regressing 3D Gaussians from images remains challenging,并以 hybrid Triplane-Gaussian intermediate representation 作为回应。

第四,若每像素固定槽位的高斯分配方式存在 view bias,那么就会进一步催生对 primitive placement 本身的重新思考,这对应更广义的 adaptive placement、structured allocation 或 alternative primitives 路线。路线一没有解决它,但路线一把问题暴露得足够清楚。

因此,路线一最大的历史作用之一,不只是给出了一个可行答案,而是把"真正困难在哪里"公开化了。


9. 结语

路线一解决了"前馈式 3DGS 能不能成立",但没有解决"高斯到底该怎样在 3D 中被更合理地组织"。

这句话之所以重要,是因为它同时给出了路线一的历史定位与理论边界。它的历史定位在于:pixelSplat 与 latentSplat 证明了,少量图像经过前向传播,的确可以直接产出一组显式 3D Gaussian scene,并借助 Gaussian splatting 完成高效的新视角合成;它的理论边界在于:这些高斯的组织原则仍主要来自 pixel-aligned local evidence 的 2D-driven lifting,而不是一个真正强结构、强几何、强全局一致性的 3D 推理过程。

pixelSplat 通过 probabilistic Gaussian prediction 与 differentiable sampling 把 center localization 变成了可训练问题;latentSplat 又把这一范式内部推进到 variational latent Gaussian 与生成式解码。但它们都没有从根本上回答:高斯应当如何依据 3D 结构本身,而不是仅依据图像局部槽位,被分配、组织与约束。

也正因此,路线一不是终点答案,却是整个前馈式 3DGS 研究地图里最值得单独讲的起点范式。它第一次让问题成立,第一次让表示显式,第一次让高效 renderer 与前馈 reconstruction 真正合流,第一次让"Gaussian mean localization 是主矛盾"这件事被整个领域共同看到。后续路线之所以会迅速走向 geometry-first、cost volume、structured latent、global aggregation,恰恰不是因为路线一失败了,而是因为路线一成功地把问题压缩到了一个更本质的层面:既然高斯已经可以被前馈预测,那么下一步的关键,不再是能不能预测,而是能不能更合理地组织。 这也正是下一篇进入"几何优先 / cost volume / depth-first"路线时的真正起点。


参考文献


1. Splatter Image

论文原图核心链路是:输入图像 → image-to-image 网络(U-Net)→ 每像素一个 3D Gaussian 参数图(opacity / RGB / Σ / xyz)→ Gaussian Splatting → 360° novel views。作者明确强调这是"one 3D Gaussian per pixel"的 image container 设计。
Input Image
Image-to-Image Network

U-Net
Splatter Image

per-pixel Gaussian parameters
Opacity
RGB
Covariance Σ
Position xyz
Gaussian Splatting Renderer
360° Novel Views

可直接记成一句话:Splatter Image = 用 2D U-Net 直接生成"高斯参数图",再用 Gaussian Splatting 渲染。


2. pixelSplat

pixelSplat 的完整架构图在补充材料 Fig.8。主链路是:双输入图像 → per-image encoder → epipolar sampling → epipolar attention(重复 2 次)→ Gaussian prediction 。其 per-image encoder 由 ResNet-50(DINO-pretrained)+ DINO ViT-B/8 组成,epipolar 模块负责从对视图中沿极线采样,再做 cross-view attention。
Encoder
Image 1
Per-image Encoder
Image 2
ResNet-50

DINO-pretrained
DINO ViT-B/8
Project / Upsample
Image Features
Epipolar Sampling
Ray Features + Epipolar Samples + Depths
Epipolar Attention x2
Gaussian Prediction
3D Gaussians
Gaussian Splatting Renderer
Novel Views

更本质一点看,pixelSplat 的架构不是"直接回归高斯",而是先用 epipolar 机制构造更稳定的 ray-conditioned 特征,再做 Gaussian prediction;这也是它区别于纯 image-to-image 方案的关键。


3. latentSplat

latentSplat 的官方总览是一个autoencoder 结构 :左侧用两张 context views 经过 DINO-ViT encoder + epipolar transformer + Gaussian head 得到 3D variational Gaussians ;中间从 variational Gaussians 采样 spherical harmonic feature coefficients,形成某个具体的 semantic Gaussian 实例;右侧再经 Gaussian splatting + 轻量 VAE-GAN decoder 解码为 novel view。
Context View 1
DINO-ViT Encoder
Context View 2
Epipolar Transformer
Gaussian Head
3D Variational Gaussians
Sample SH Feature Coefficients

via reparameterization
Semantic / Feature Gaussians
Gaussian Splatting
Feature Map
Light-weight VAE-GAN Decoder
Novel View
Discriminator

training only

一句话概括:latentSplat = pixelSplat 风格的两视图编码器 + variational feature Gaussians + 2D generative decoder。 它把显式 RGB Gaussian 推进成了可采样的 latent Gaussian。


4. MVSplat

MVSplat 的原图核心非常清晰:多视图输入 → multi-view transformer 特征提取 → plane sweeping cost volume → 与 transformer features 拼接后送入 2D U-Net(含 cross-view attention)→ 预测 per-view depth maps 与 Gaussian 参数 → 深度反投影并做 union,得到 3D Gaussians → render novel view。作者明确把 cost volume 作为 center localization 的关键几何模块。
Input View i
Multi-view Transformer
Input View j
Per-view Features
Plane Sweeping
Per-view Cost Volumes
Concat Features + Cost Volumes
2D U-Net

with cross-view attention
Per-view Depth Maps
Opacity / Covariance / Color
Unproject to 3D
Union of Per-view Centers
3D Gaussians
Renderer
Novel View

和 pixelSplat 的最大差异可以压成一句:pixelSplat 主要靠 probability density depth;MVSplat 主要靠 feature matching cost volume。


5. TGS(Triplane Meets Gaussian Splatting)

TGS 的官方总览是典型的双分支混合表示架构单视图输入 + camera embedding → image encoder ,然后分两路进入 point cloud decodertriplane decoder ;二者通过 projection-aware conditiongeometry-aware encoding 融合,形成 hybrid triplane-Gaussian representation ,再经 Gaussian decoder 输出 3D Gaussians,最后 splatting 渲染 novel views。
Single-view Input
Image Encoder
Camera Embedding
Point Cloud Decoder
Triplane Decoder
Point Clouds
Triplane Features
Projection-aware Condition
Hybrid Triplane-Gaussian Representation
Gaussian Decoder
3D Gaussians
Splatting Renderer
Novel Views

TGS 的关键不是"直接从图像回归全部 Gaussian 属性",而是先用 point cloud 提供显式几何骨架,再用 triplane 提供隐式属性场,最后再解码成高斯。这正是它引入 hybrid representation 的原因。


相关推荐
junior_Xin2 小时前
机器学习深度学习beginning3
深度学习·机器学习
Bert.Cai2 小时前
Python标识符详解
开发语言·python
Allen_LVyingbo2 小时前
自进化医疗智能体:动态记忆与持续运行的Python架构编程(上)
数据结构·python·架构·动态规划·健康医疗
lifewange2 小时前
insert
开发语言·python
代码探秘者2 小时前
【算法篇】5.链表
java·数据结构·人工智能·python·算法·spring·链表
AI_Ming2 小时前
程序员转行学习 AI 大模型: 第一次如何调用大模型API | 附完整可运行代码
aigc·openai·ai编程
甜城瑞庄的核桃2 小时前
Claude Code 工程化实战:从工具使用者到 Agent 构建者的进阶之路
人工智能·机器学习·aigc·ai编程
杰杰7982 小时前
一文掌握在Flask使用SQLAlchemy(上)
后端·python·flask
Rabbit_QL2 小时前
[Token实战]Flask JWT 登录接口
后端·python·flask