三维重建技术与实践：基于NeRF与3DGS

过去十年，AI 学会了 "读" 和 "写"；而未来十年，AI 必须学会 "看"、"建" 和 "做"。

近两年，一个原本属于计算机图形学与三维重建领域的技术 ------ 3D Gaussian Splatting（3DGS）（Kerbl et al., 2023）------ 正在快速 "出圈"。从学术论文到工业系统，其演进速度远超预期。

更值得关注的是，这种演进不再局限于 "渲染更快"，而开始指向一个更宏大的问题：机器如何在真实世界中构建、维护并使用一个可计算的三维表示。

一个正在发生的信号：从渲染技术到世界级系统

2026年4月，World Labs 发布了 Spark 2.0，对基于 3DGS 的 Web 端渲染系统进行了系统级升级。

与早期工作不同，Spark 2.0 的目标不再只是 "高效渲染单个场景"，而是：在任意设备上，流式加载并实时呈现一个可扩展的三维世界。

其核心技术包括：

**连续层次细节（Level-of-Detail, LoD）系统：**基于高斯层次结构（splat tree），动态选择渲染子集，使计算复杂度与视点相关而非与场景规模相关；

**渐进式流式加载（Progressive Streaming）：**按视点优先级逐步加载 3DGS 数据，实现"边加载边交互"；

**虚拟内存机制（Virtual Memory）：**在固定 GPU 内存预算下调度海量高斯数据，使浏览器端也能访问超大规模三维场景。

从系统角度看，这些设计带来了三个关键变化：

1.渲染复杂度与场景规模解耦

2.数据可跨设备流式访问

3.多对象可统一组织于同一空间

这意味着：3DGS 正在从 "单场景表示方法"，演进为"可组合的三维世界表示系统"。

值得注意的是，Spark 最初即服务于 "世界模型（World Model）" 方向的探索。在这一背景下，3DGS 不再只是图形学技术，而开始承担 "世界状态表达" 的角色。

一、为何需要 "三位一体"？具身智能的三块拼图

如果将视角进一步拉高，可以看到一个逐渐清晰的技术共识：通用具身智能依赖三类能力的统一 ------ 认知、空间与行动

这对应着一个具有现实可行性的技术组合：具身智能 ≈ 多模态 LLM（认知）+ 3DGS（空间） + Flow-based 生成模型（行动），对应 "决策 --- 表征 --- 控制" 的经典分层结构。

1. 多模态LLM：机器的 "认知中枢"

当人类发出指令 "把那个红色的杯子拿给我"，系统首先需要完成：语义理解、跨模态对齐、任务分解。多模态模型（如 GPT-4V、Qwen-VL、LLaVA）已经在这一层面表现出强大能力（Liu et al., 2023）。

但其输出仍然是符号层信息，无法直接回答：杯子的位置与姿态、是否被遮挡、抓取所需的物理约束。这些问题需要一个空间层表示来承载。

2. 3DGS：机器的"空间眼"

传统三维表示存在明显取舍：Mesh/点云几何明确但表达能力有限；NeRF 表达连续但推理成本高（Mildenhall et al., 2020）。

3DGS 提供了一种新的平衡：实时渲染能力、显式结构（高斯集合）、可微分优化、可扩展属性（语义/动态）。

从表示学习角度看：3DGS 是一种介于显式几何与隐式场之间的半显式可微表示（Jun-seong Kim et al., 2025）。近期工作进一步探索将语义信息注入 3DGS，使其从 "可视化表示" 走向 "可查询空间结构"。

换句话说：3DGS 正在成为一种 "空间数据库"，向着一种 "可查询的空间表示" 演进。

3. Flow-based 生成模型：机器的 "运动神经"

在行动层，问题转化为：如何生成连续且可控的动作。

扩散策略方法（如 Diffusion Policy）已验证其表达能力（Chi et al., 2023），但推理成本较高。Flow Matching 提供了一种更高效的路径（Lipman et al., 2022）：将生成过程建模为概率流，使用常微分方程 (ODE, Ordinary Differential Equation) 进行连续求解，支持更少步甚至单步生成。结合 Transformer 架构（如 DiT），可在保证表达能力的同时显著降低延迟（Peebles & Xie, 2023）。