三维重建：3DGS

文章目录

一、3DGS是什么？
- 1.介绍
- 2.技术原理
- 3.行业应用现状
- 4.技术局限性
- [5.NeRF vs 3DGS vs VGGT](#5.NeRF vs 3DGS vs VGGT)
- [6.SLAM vs 3DGS](#6.SLAM vs 3DGS)
[二、术语表 glossary](#二、术语表 glossary)
三、原理
四、目前热门的研究方向
- [1.动态场景：从 3D → 4D (时间维度)](#1.动态场景：从 3D → 4D (时间维度))
- [2.SLAM / 在线重建：边走边建、边建边渲染](#2.SLAM / 在线重建：边走边建、边建边渲染)
- [3.可编辑与可控：把"可渲染 3D"变成"可编辑 3D"](#3.可编辑与可控：把“可渲染 3D”变成“可编辑 3D”)
- [4.可重光照 / 逆渲染：从"拍到啥就固定啥"到"可换灯光/材质"](#4.可重光照 / 逆渲染：从“拍到啥就固定啥”到“可换灯光/材质”)
- 5.压缩与可扩展：更小、更快、更能"流式加载"
- 6.系统与渲染层：更稳、更快、更少伪影
五、论文与代码
[六、实验室方向：3D Gaussian for Occupancy Prediction](#六、实验室方向：3D Gaussian for Occupancy Prediction)
- 1.3D高斯模型的基本概念
- 2.在占用预测中的应用

一、3DGS是什么？

1.介绍

3DGS 通常指 3D Gaussian Splatting（三维高斯 Splatting/泼溅渲染）------一种用大量可学习的三维高斯椭球来表示场景，并通过"splatting（把 3D 高斯投影成屏幕上的 2D 椭圆斑点再做混合）"实现高质量新视角合成/辐射场渲染的方法。

3DGS 的中文全称是 "三维高斯泼溅"，对应的英文是 "3D Gaussian Splatting"，是当前计算机图形学领域热门的3D 场景表示与渲染技术。

它的核心逻辑是：用 "三维空间中的离散高斯分布（高斯基元）" 来建模场景的几何结构与外观，既能实现接近照片级的渲染质量，又能达到实时渲染（≥100 FPS）的效率，比传统的 NeRF（神经辐射场）技术速度快数百倍，目前广泛应用于 VR/AR、三维重建、自动驾驶仿真等领域。

2.技术原理

三维高斯泼溅是一种3D场景重建和实时渲染技术，用3D高斯球来表示三维场景，能够在保持高画质的同时实现实时渲染。和传统的NeRF方法比起来，它的优势就是快，能够在1080p分辨率下达到≥30 FPS 的实时渲染效果。这对VR、AR、游戏、影视制作来说，简直是太妙了。

3DGS的全称为‌3D Gaussian Splatting‌，中文常译为‌三维高斯溅射‌或‌三维高斯泼溅‌。其核心思想是使用‌数百万个可参数化的三维高斯分布（椭球体）‌来表示整个场景。每个高斯元携带‌位置、协方差（控制形状与方向）、不透明度以及颜色（通常由球谐函数控制）‌等信息

3.行业应用现状

目前不少大厂都在3DGS技术解决实际问题。特别是在需要高质量3D重建的场景，比如自动驾驶场景建模 、数字孪生、虚拟拍摄等。它的计算效率确实比传统方法高不少，特别是处理大规模场景时优势明显。不过，这些优势主要是体现在硬件配置还不错的情况下，如果设备性能一般，效果可能就要打折扣了。有团队把3DGS和SLAM技术相结合，做实时的场景重建和定位，效果挺不错的。

应用方向1：自动驾驶场景建模
机器人/自动驾驶感知中的建图与定位：把地图表示成可渲染的高斯集合，兼顾几何与外观，用于"照片级 SLAM/建图"。

应用方向2：数字孪生
AR/VR、数字孪生、实景扫描展示：行业里已经在用"Gaussian splats"做 3D 扫描与沉浸式浏览（例如应用到移动端扫描/VR 空间展示的趋势）。例如：黄仁勋搞的 NVIDIA Omniverse Isaac Sim 就是专为机器人模拟、训练和测试设计的高性能仿真平台

应用方向3：虚拟拍摄
照片/视频 → 可自由走动的3D场景：比很多NeRF系方法更容易做到实时交互和较快训练。
例如：iPhone的空间壁纸(空间场景功能)，使用的核心技术就是3DGS

4.技术局限性

3DGS不是完美无缺的，其最大的问题是：对输入数据要求高。拍摄角度不够多样、图像质量不好，重建的效果就会很差。

而且，在处理超大规模场景时，内存消耗和计算量非常吃硬件配置。

另外，在处理动态场景、透明物体这些复杂情况时，效果还有提升的问题。面对光照剧烈变化或噪声较大的数据时，稳定性还有待提高。

5.NeRF vs 3DGS vs VGGT

3DGS 比 NeRF 渲染速度快

技术名称	诞生时间	所属机构	关键特性
NeRF	2020年3月	Google	开启了隐式神经辐射场时代，高质量但渲染极慢
3DGS	2023年8月	Inria	转向显式高斯点云，实现了实时渲染和超快训练
DUSt3R	2023年12月	NAVER LABS Europe	Transformer架构，稠密无约束立体三维重建
VGGT	2025年3月	Meta (FAIR)	3D大模型，通过Transformer直接推理出几何属性

6.SLAM vs 3DGS

维度	SLAM	3DGS
核心目标	实时定位（6DoF 位姿）+ 一致地图构建，服务自主导航 / 机器人感知	高质量场景重建 + 实时新视角合成，服务视觉渲染 / 数字孪生
场景表示	稀疏特征点、稠密点云、网格等，注重几何结构与计算效率	各向异性 3D 高斯椭球集合，显式表示，兼顾几何与外观细节
典型输出	相机轨迹、环境地图(稀疏 / 稠密)	可实时渲染的辐射场模型，支持照片级真实感视图
时间特性	增量式、在线处理，低延迟优先	常为离线优化，近年适配在线增量场景

1.关键融合路径与价值

(1)SLAM → 3DGS：提供位姿与几何先验

①SLAM 输出的相机轨迹（如 SfM/SLAM 的 bundle adjustment 结果）用于初始化 3DGS 的高斯分布，避免 3DGS 依赖离线位姿估计。

②SLAM 的稀疏 / 稠密点云可作为 3DGS 的几何骨架，提升高斯分布的结构一致性与收敛速度。

③示例：Photo-SLAM、SplaTAM 用 SLAM 轨迹初始化 3D 高斯，实现实时增量建图。

(2)3DGS → SLAM：提升跟踪鲁棒性与建图质量

①3DGS 的稠密外观模型可提供更丰富的像素级约束，优化 SLAM 的视觉里程计与后端 BA，降低轨迹漂移。

②3DGS 的显式表示支持快速重投影误差计算，适配动态场景的鲁棒跟踪。

③示例：SEGS-SLAM 引入结构增强 3DGS，提升重建细节与轨迹精度。

(3)一体化融合方案

①形成 "定位 - 建图 - 渲染" 闭环：SLAM 实时估计位姿，3DGS 在线优化高斯模型并渲染，适配 AR/VR 等低延迟高保真需求。

②典型框架：SplaTAM、GSSLAM 等，支持单目 / RGB-D 输入，兼顾在线性能与渲染质量。

2.典型应用场景

(1)机器人导航：SLAM 保证定位精度，3DGS 提供环境的高保真可视化，辅助远程操控与场景理解。

(2)AR/VR：SLAM 实现虚实注册，3DGS 快速渲染真实场景，提升沉浸感。

(3)数字孪生：SLAM 采集场景结构，3DGS 生成可交互的数字孪生模型，支持实时查看与分析。

3.总结

(1)本质区别：SLAM 是 "定位 - 结构" 导向，3DGS 是 "视觉 - 保真" 导向，核心目标不同但技术栈高度兼容。

(2)融合趋势：随着 3DGS 在线优化与轻量化技术发展，二者结合成为视觉 SLAM 的重要演进方向，平衡定位效率与建图质量。

二、术语表 glossary

缩写	英文全称	中文全称	拓展
	3D Reconstruction	三维重建
NeRF	Neural Radiance Fields	神经辐射场	用神经网络的权重来保存场景
3DGS	3D Gaussian Splatting	三维高斯泼溅	用显式的几何点来快速渲染是当前计算机图形学领域热门的3D场景表示与渲染技术
DUSt3R	Dense Unconstrained Stereo 3D Reconstruction	稠密无约束立体三维重建
VGGT	Visual Geometry Grounded Transformer	视觉几何对齐 Transformer	用通用大模型直接推理几何关系

三、原理

可以把它理解为"显式点/体元表示 + 可微分的高速光栅化渲染 + 端到端优化"。

表示：用一堆 3D 高斯"椭球"拼出场景

每个高斯通常包含这些可学习参数：

位置（3D mean）不透明度（opacity）各向异性协方差（anisotropic covariance）：决定椭球的方向与尺度颜色/视角相关外观：用**球谐系数（Spherical Harmonics, SH）**来表达视角相关的颜色变化
初始化：从多视图重建的稀疏点云出发

它的输入和很多 NeRF 类方法类似：多张照片 + 相机位姿（常由 SfM 得到），并用 SfM 产生的稀疏点云来初始化高斯集合。
渲染：把 3D 高斯投影成 2D 椭圆斑点并做混合

渲染时将每个 3D 高斯投影到屏幕，变成一个 2D 椭圆"splat"，再按可见性/深度排序进行 α-blending（alpha 混合），得到最终像素颜色；这一过程是可微分的，因此能反向传播优化参数。
训练：边优化边"增密/删点"（density control）

用渲染结果与真实图像做重建损失，梯度下降更新高斯参数；同时穿插 density control（增密、拆分、裁剪、删除）来提高细节与紧致性，并特别强调优化各向异性协方差来更贴合几何结构。

四、目前热门的研究方向

1.动态场景：从 3D → 4D (时间维度)

3DGS 原生更擅长静态场景；动态物体/人体/非刚体运动会带来挑战，于是出现 4D Gaussian Splatting 等，把时间纳入表示与渲染。

也有人进一步把它和 SLAM 结合，做"动态场景的同时定位与重建"。

2.SLAM / 在线重建：边走边建、边建边渲染

目标是：实时位姿估计 + 实时更新高斯地图 + 实时渲染，甚至融合多传感器（LiDAR-IMU-Camera）。

3.可编辑与可控：把"可渲染 3D"变成"可编辑 3D"

因为表示是显式的"高斯集合"，研究者在做：

文本指令编辑（改材质/风格、局部修改、增删对象等）

4.可重光照 / 逆渲染：从"拍到啥就固定啥"到"可换灯光/材质"

标准 3DGS 往往把光照"烘焙"进外观里，难以换光。于是出现：

逆渲染：同时估计几何、材质、环境光，并支持 relighting。

野外可重光照重建等方向（更复杂光照、非受控环境）。

5.压缩与可扩展：更小、更快、更能"流式加载"

3DGS 常见痛点之一是高斯数量大、参数多、模型体积大，移动端/网络传输会很吃力，于是大量工作在做：

剪枝/量化/层级LOD/渐进式加载等压缩与可扩展方案

6.系统与渲染层：更稳、更快、更少伪影

包括可见性处理、抗锯齿、细节保持、薄结构/反光材质的处理等（很多工作会在"渲染方程/栅格化近似/可微渲染器"层面推进）。这一块通常也会被综述归为关键挑战与未来方向之一。

五、论文与代码

1.大规模场景重建(城市级)：https://dekuliutesla.github.io/CityGaussianV2/

2.4DGS重建：https://github.com/WuJH2001/swift4d

3.3DGS结合仿真器：https://github.com/zst1406217/VR-Robo [Real-to-Sim-to-Real]

这篇文章介绍了 VR-Robo，这是一个名为"从现实到仿真再到现实"（Real-to-Sim-to-Real）的框架，旨在为视觉机器人的导航与运动（Locomotion）学习提供高保真且可交互的仿真环境。

六、实验室方向：3D Gaussian for Occupancy Prediction

3D高斯模型（3D Gaussian）在占用预测（Occupancy Prediction）中的应用，通常涉及使用三维空间中的高斯分布来表示和预测某些区域或位置的占用情况。该方法常见于自动驾驶、机器人导航以及智能建筑等领域。

这是一个非常前沿且热门的研究方向，主要应用于自动驾驶感知和机器人导航领域。

简单来说，3D Gaussian for Occupancy Prediction 指的是利用 3D Gaussian Splatting (3DGS) 技术来表示场景，并基于此进行 3D 空间的占用预测（判断空间中哪些位置有障碍物，哪些是空的）。

传统的占用预测常用 Voxel(体素)或 NeRF(神经辐射场)，而 3DGS 因为其渲染速度极快和显式表征的特性，正在成为一个新的优选方案。

1.3D高斯模型的基本概念

高斯分布，也叫正态分布，通常用于描述某个量的概率分布情况。在三维空间中，3D高斯分布是通过三个变量来描述空间中的点如何分布的。其数学表达式为：
f ( x , y , z ) = 1 ( 2 π ) 3 / 2 σ x σ y σ z exp ⁡ ( − 1 2 ( x 2 σ x 2 + y 2 σ y 2 + z 2 σ z 2 ) ) f(x,y,z) = \frac{1}{(2\pi)^{3/2}\sigma_x\sigma_y\sigma_z} \exp\left(-\frac{1}{2}\left(\frac{x^2}{\sigma_x^2} + \frac{y^2}{\sigma_y^2} + \frac{z^2}{\sigma_z^2}\right)\right) f(x,y,z)=(2π)3/2σxσyσz1exp(−21(σx2x2+σy2y2+σz2z2))

这里，𝑥、𝑦、𝑧 是空间中的坐标， 𝜎 𝑥 𝜎_𝑥 𝜎x、 𝜎 y 𝜎_y 𝜎y、 𝜎 z 𝜎_z 𝜎z是高斯分布的标准差，分别表示沿三个坐标轴的分布范围。

2.在占用预测中的应用

在占用预测中，3D高斯分布通常用于描述环境中不同区域的占用概率。比如，在自动驾驶中，车辆需要知道哪些区域可能被物体（如行人、其他车辆）占据，从而避免碰撞。

1.环境建模：通过3D高斯模型，能够建模一个区域内不同位置的占用概率分布，帮助系统了解哪些区域存在障碍物或人员。

2.传感器融合：传感器数据（如激光雷达、相机等）通过3D高斯分布来融合，不同传感器提供的信息可以在空间中进行有效的合并，以更准确地预测物体的存在。

3.路径规划：在进行路径规划时，3D高斯分布可以用来表示障碍物的概率分布，系统可以根据这些分布来调整路径，避免进入高概率被占用的区域。

4.动态变化：随着时间的推移，环境会发生变化，3D高斯分布可以通过动态更新来反映这些变化，例如车辆或行人在不同时间点的移动。

通过这种方式，3D高斯分布能够帮助系统在复杂的三维空间中更准确地预测并响应可能的占用情况，提高决策的准确性和安全性。