0. 摘要与概述
简述 3D Gaussian Splatting (3D GS) 的关键概念、显著优势及应用前景。
3D 高斯散点 (3D GS) 是一种新兴且变革性的技术,用于三维场景的表示和渲染,在计算机图形学和计算机视觉领域中越来越受到关注。这种技术主要通过数百万个可学习的三维高斯来显式地表示辐射场,相比于传统的基于隐式神经网络的方法(如 NeRF,神经辐射场),3D GS 具有显著的优势。3D GS 利用显式场景表示和可微渲染算法,不仅具备实时渲染能力,还具有前所未有的编辑性,可能成为下一代三维重建和表示的颠覆性技术。本文档对 3D GS 的关键概念、发展和应用进行了系统的综述。
1. 引言
介绍 3D 场景重建的历史背景,深入探讨3D GS的起源及其突破性应用。
图像为基础的三维场景重建的目标是将捕捉场景的多个视角或视频转换为一个计算机可以处理和理解的三维模型。这是机器理解现实环境复杂性的重要基础,有助于广泛的应用,包括三维建模与动画、机器人导航、历史保护、增强/虚拟现实以及自动驾驶。
三维场景重建的发展历程早在深度学习兴起之前就已开始,早期的尝试集中在光场和基本的场景重建方法上。然而,这些方法受限于对密集采样和结构化捕捉的依赖,难以处理复杂的场景和光照条件。随着运动结构 (Structure-from-Motion) 的出现,以及多视角立体视觉 (Multi-view Stereo) 算法的发展,为三维场景重建提供了更稳健的框架。但这些方法在新视角合成和与深度场景理解模型的兼容性方面仍存在不足。
神经辐射场 (NeRF) 是这一进程中的一次量子跃迁。通过深度神经网络,NeRF 能够将空间坐标直接映射到颜色和密度,创建连续的体积场景函数,从而实现前所未有的细节和真实感。然而,NeRF 方法也存在一些局限性,主要包括:
计算密集性 (Computational Intensity):NeRF 需要高计算量,通常需要较长的训练时间和大量资源来实现高分辨率的渲染。
可编辑性 (Editability):由于 NeRF 的隐式表示,直接修改神经网络权重来改变场景几何或外观属性非常困难。
在这样的背景下,3D 高斯散点 (3D GS) 应运而生,成为一种颠覆性的场景表示和渲染方式。与 NeRF 生成逼真的图像相比,3D GS 提供了一种更快、更高效 的渲染方式,特别适用于对延迟敏感的应用(如虚拟现实和自动驾驶)。3D GS 通过在空间中使用数百万个可学习的三维高斯来显式建模场景,并结合了可微分的渲染流程和点渲染技术。这种方式保留了连续体积辐射场的强大拟合能力,同时避免了 NeRF 中光线行进等高计算开销的操作。
3D GS 的引入不仅是一次技术进步,更是场景表示和渲染方式的根本性转变。通过实现实时渲染而不损失视觉质量,3D GS 为虚拟现实、增强现实、实时电影渲染等应用带来了无限可能。此外,3D GS 的显式场景表示提供了前所未有的灵活性,便于控制对象和场景动态,尤其在涉及复杂几何结构和变化光照条件的场景中。
为了帮助读者跟上 3D GS 快速发展的步伐,本文提供了首个关于 3D GS 的系统性综述,涵盖了该领域最重要的研究文献,特别聚焦于其原理及自引入以来的多样化发展和贡献。所选后续工作主要来源于顶级会议,以提供对 3D GS 理论基础、重要发展及新兴应用的全面分析。
2. 背景与术语
讨论辐射场的定义及其不同表示方式,分析与场景重建和渲染等相关领域的联系。
背景介绍
在本节中,我们首先提供了辐射场的简要表述(第 2.1 节),这是场景渲染的一个关键概念。辐射场有两种主要类型的表示方法:隐式表示,如 NeRF,这种方法使用神经网络进行直接但计算要求较高的渲染;显式表示,如网格结构,通过离散数据结构实现更快的数据访问,但内存使用较高。第 2.2 节进一步建立了与相关领域如场景重建和渲染的联系。对于辐射场、场景重建与表示以及渲染方法的全面综述,建议参考相关优秀综述文献。
2.1 辐射场问题定义
2.1.1 辐射场 (Radiance Field)
辐射场是三维空间中光分布的表示,用于描述光如何与表面交互。辐射场可以被描述为一个函数 $L: R^5 \rightarrow R_+$,其中 $L(x, y, z, \theta, \phi)$ 映射空间中的一点 $(x, y, z)$ 以及由球面坐标 $(\theta, \phi)$ 指定的方向到非负的辐射值。辐射场可以通过隐式或显式表示来封装,每种方式在场景表示和渲染方面都有各自的优势。
2.1.2 隐式辐射场 (Implicit Radiance Field)
隐式辐射场在不显式定义场景几何的情况下表示光的分布。在深度学习时代,隐式辐射场通常使用神经网络来学习连续的体积场景表示,最为著名的例子是 NeRF。在 NeRF 中,神经网络(通常为多层感知机 MLP)用于将一组空间坐标 ( x , y , z ) (x, y, z) (x,y,z) 和视角方向 ( θ , ϕ ) (\theta, \phi) (θ,ϕ) 映射为颜色和密度值。辐射在任意点不是直接存储的,而是通过查询 MLP 进行动态计算。因此,函数可以表示为:
这种格式允许对复杂场景进行可微分且紧凑的表示,尽管通常需要较高的计算成本,例如体积光线行进的过程。
2.1.3 显式辐射场 (Explicit Radiance Field)
与隐式辐射场不同,显式辐射场直接在离散空间结构(如体素网格或点集)中表示光的分布。结构中的每个元素存储其各自空间位置的辐射信息。这种方法可以更直接且更快地访问辐射数据,但代价是更高的内存使用和潜在的较低分辨率。显式辐射场表示的通用形式为:
其中,DataStructure 可以是体积、点云等形式, f ( θ , ϕ ) f(\theta, \phi) f(θ,ϕ) 是一个基于视角方向调整辐射的函数。
2.1.4 3D 高斯散点:结合两者优势 (3D Gaussian Splatting: Best-of-Both Worlds)
3D GS 是一种结合了隐式辐射场优点的显式辐射场表示。具体来说,它利用了两种范式的优点,采用可学习的 3D 高斯作为灵活且高效的表示。这些高斯在多视角图像的监督下被优化,以精确表示场景。这样的 3D 高斯可微管道结合了基于神经网络的优化和显式、结构化的数据存储,旨在实现实时、高质量的渲染,并且特别适用于复杂场景和高分辨率输出。3D 高斯表示的公式为:
其中, G G G 是具有均值 μ i \mu_i μi 和协方差 Σ i \Sigma_i Σi 的高斯函数, c c c 表示视角相关的颜色。
2.2 上下文和术语定义
简要概述与 3D GS 相关的场景重建、神经渲染、体积表示、以及点云渲染技术。
2.2.1 场景重建与渲染 (Scene Reconstruction and Rendering)
粗略来说,场景重建是指从一组图像或其他数据中创建场景的三维模型,而渲染更具体地指将计算机可读的信息(如场景中的三维对象)转换为基于像素的图像。早期的技术基于光场生成逼真的图像,运动结构 (Structure-from-Motion) 和多视角立体 (Multi-view Stereo) 算法的出现进一步推动了这一领域的发展,提供了更复杂场景重建和渲染的坚实基础。
2.2.2 神经渲染与辐射场 (Neural Rendering and Radiance Fields)
神经渲染结合深度学习和传统图形技术以生成逼真的图像。早期尝试利用卷积网络来估计混合权重或进行纹理空间的解决方案。NeRF 通过使用多层感知机 (MLP) 来建模辐射场,实现了详细而真实的场景渲染。
2.2.3 体积表示与光线行进 (Volumetric Representations and Ray-Marching)
体积表示不仅将对象和场景建模为表面,还可以表示填充材料或空空间的体积,从而更准确地渲染诸如雾、烟雾或半透明材料等现象。光线行进是与体积表示结合使用的一种技术,通过追踪光在体积中的路径来渲染图像。NeRF 采用了相似的体积光线行进理念,并引入重要性采样和位置编码以提高合成图像的质量。尽管可以提供高质量的结果,但体积光线行进的计算成本非常高,因此激励了诸如 3D GS 之类更高效方法的探索。
2.2.4 基于点的渲染 (Point-based Rendering)
基于点的渲染是一种使用点而不是传统多边形来可视化三维场景的方法。这种方法在渲染复杂、非结构化或稀疏的几何数据时特别有效。点可以通过可学习的神经描述符等附加属性进行增强,并进行高效渲染,但这种方法也存在渲染中出现空洞或混叠效应等问题。3D GS 通过使用各向异性的高斯来扩展这一概念,以实现更连续和一致的场景表示。更多实现细节将在第 3 节中进一步讨论。
3. 3D Gaussian Splatting 原理
阐述 3D GS 在实时高分辨率图像渲染中的突破,以及图像生成和高斯优化的核心步骤。
详细描述隐式和显式辐射场的原理和应用,包括 3D GS 的优势。
3D GS 提供了一种突破性的实时高分辨率图像渲染方式,不依赖于深度神经网络。本节旨在提供 3D GS 的基本原理。首先,我们在第 3.1 节详细说明了如何使用已优化的 3D 高斯来合成图像,即 3D GS 的正向过程。接着,在第 3.2 节介绍如何为给定场景获得良好构建的 3D 高斯,即 3D GS 的优化过程。
3.1 使用学习的3D高斯进行渲染
假设一个场景通过(数百万个)已优化的 3D 高斯进行表示,其目标是从特定相机角度生成图像。NeRF 通过体积光线行进的方式实现这一任务,需对每个像素在三维空间中进行采样,这种方法在实现实时渲染,特别是高分辨率图像生成时,往往存在困难。相比之下,3D GS 的渲染过程通过将这些 3D 高斯投影到像素图像平面上,这一过程被称为"散点 (Splatting)"。接下来,3D GS 对这些高斯进行排序,并计算每个像素的最终颜色值。
与 NeRF 的体积采样渲染不同,3D GS 采用了相反的前向渲染过程,从 3D 高斯投影到图像平面,并通过并行化处理大幅提升渲染速度。
3D 高斯的属性 (Properties of 3D Gaussian):一个 3D 高斯由其中心位置 μ μ μ、不透明度 α α α、三维协方差矩阵 Σ Σ Σ 和颜色 c c c 来定义,其中 c c c 使用球谐函数表示视角相关的外观。所有这些属性都是可学习的,通过反向传播进行优化。
视锥剔除 (Frustum Culling):给定一个相机姿态,这一步决定哪些 3D 高斯位于相机视锥之外。视锥之外的 3D 高斯将不会参与后续计算,从而节省计算资源。
散点 (Splatting):在此步骤中,3D 空间中的高斯(椭球体)被投影到二维图像空间(椭圆)进行渲染。给定视图变换矩阵 W W W 和三维协方差矩阵 Σ Σ Σ,投影后的二维协方差矩阵 Σ ′ Σ' Σ′ 通过以下公式计算:
其中 J J J 是仿射近似的投影变换的雅可比矩阵。
像素级渲染 (Rendering by Pixels):在深入介绍最终版本的 3D GS 如何利用各种技术来加速并行计算之前,我们先说明其简化形式,以帮助理解其基本工作机制。给定像素位置 x x x,可以通过视图变换 W W W 计算其与所有重叠高斯的距离,即这些高斯的深度,形成高斯的排序列表 N N N。然后,通过阿尔法合成来计算该像素的最终颜色:
其中 c n c_n cn 是学习到的颜色。最终的不透明度 α n ′ α'_n αn′ 是学习到的不透明度 α n α_n αn 与高斯函数的乘积,定义如下:
其中 x ′ x' x′ 和 μ n ′ μ'_n μn′ 是投影空间中的坐标。
瓦片 (Tiles):为了避免对每个像素都进行高斯计算的开销,3D GS 将精度从像素级别降低到图块级别。具体而言,3D GS 将图像分割为多个不重叠的图块(在原论文中称为"瓦片"),每个瓦片包含 16 × 16 16\times16 16×16 个像素。3D GS 确定哪些投影后的高斯与这些瓦片相交,并为每个相交的瓦片分配一个唯一的标识符。
并行渲染 (Parallel Rendering):在进行瓦片划分后,3D GS 结合每个高斯的瓦片 ID 和视图变换深度,形成一个未排序的字节列表,其中高位表示瓦片 ID,低位表示深度。这样,排序后的列表可以直接用于渲染(即阿尔法合成)。渲染每个瓦片和像素是独立进行的,这使得这一过程非常适合并行计算。此外,每个瓦片的像素可以访问公共共享内存并保持统一的读取顺序,从而提高了阿尔法合成的并行执行效率。在官方实现中,瓦片和像素的处理被视为 CUDA 编程架构中的块和线程的类比。
简而言之,3D GS 在渲染过程中引入了一些近似,以提高计算效率,同时保持高质量的图像合成效果。
3.2 3D高斯的优化过程
讲解如何优化高斯的属性和密度,以更好地代表场景。
3D GS 的核心在于优化过程,其目的是构建一个大量的 3D 高斯集合,以精确捕捉场景的本质,从而实现自由视角的渲染。一方面,3D 高斯的属性应通过可微渲染进行优化,以适应给定场景的纹理。另一方面,能够很好地表示给定场景的 3D 高斯的数量事先是未知的。一种有前景的途径是让神经网络自动学习 3D 高斯的密度。我们将在第 3.2.1 节介绍如何优化每个高斯的属性,并在第 3.2.2 节介绍如何控制高斯的密度。这两个过程在优化工作流程中是交替进行的。由于优化过程中有许多手动设置的超参数,我们将省略大多数超参数的符号以保持清晰。
3.2.1 参数优化 (Parameter Optimization)
损失函数 (Loss Function):一旦图像合成完成,就可以测量渲染图像和真实图像之间的差异。所有可学习的参数通过随机梯度下降法 (SGD) 使用 ℓ1 和 D-SSIM 损失函数进行优化:
其中 λ ∈ [ 0 , 1 ] λ \in [0, 1] λ∈[0,1] 是一个权重因子。3D GS 的损失函数与 NeRF 的损失函数略有不同。NeRF 通常在像素级别计算损失,而不是图像级别,这是因为体积光线行进的成本很高。
参数更新 (Parameter Update):大多数 3D 高斯的属性可以通过反向传播直接进行优化。需要注意的是,直接优化协方差矩阵 Σ Σ Σ 可能导致非正定矩阵,这与协方差矩阵的物理解释不符。为了规避这一问题,3D GS 选择优化四元数 q q q 和三维向量 s s s。 q q q 和 s s s 分别表示旋转和缩放。这种方法允许协方差矩阵 Σ Σ Σ 通过以下方式重建:
其中 R R R 和 S S S 分别表示由 q q q 和 s s s 得到的旋转矩阵和缩放矩阵。对于不透明度 α α α,存在复杂的计算图,即 q q q 和 s → Σ s \to Σ s→Σ, Σ → Σ ′ Σ \to Σ' Σ→Σ′,以及 Σ ′ → α Σ' \to α Σ′→α。为了避免自动微分的开销,3D GS 推导出了 q q q 和 s s s 的梯度,从而在优化过程中直接计算它们。
3.2.2 密度控制 (Density Control)
初始化 (Initialization):3D GS 从运动结构 (SfM) 或随机初始化的稀疏点集开始。需要注意的是,良好的初始化对于收敛性和重建质量至关重要。之后,采用点密化和剪枝操作来控制 3D 高斯的密度。
点密化 (Point Densification):在点密化阶段,3D GS 自适应地增加高斯的密度,以更好地捕捉场景的细节。此过程主要关注几何特征缺失的区域或高斯分布过于稀疏的区域。密化过程将在固定间隔(即经过一定数量的训练迭代)后执行,重点是那些视图空间位置梯度较大的高斯(即超过特定阈值的高斯)。它涉及在欠重建区域克隆小的高斯,或在过度重建区域分裂大的高斯。对于克隆,创建一个高斯的副本并沿位置梯度移动;对于分裂,用两个较小的高斯替换一个较大的高斯,并按特定因子缩小它们的尺度。此步骤旨在寻求 3D 空间中高斯的最佳分布和表示,以提高重建的整体质量。
点剪枝 (Point Pruning):点剪枝阶段涉及移除多余或影响较小的高斯,可以将其视为一种正则化过程。通过消除几乎透明( α α α 低于特定阈值)的高斯,以及那些在世界空间或视图空间中过大的高斯来执行此操作。此外,为了防止在输入相机附近不合理地增加高斯密度,在一定数量的迭代后,将高斯的不透明度值设为接近于零。这允许在增加必要高斯密度的同时剔除冗余高斯。该过程不仅有助于节省计算资源,还确保模型中的高斯在表示场景时保持精确和有效。
通过渲染流程详细阐述如何从3D高斯生成图像,介绍3D高斯的基本属性及加速渲染的技术。
4. 扩展方向:3D Gaussian Splatting 的进展
探讨3D GS 的几种改进版本,包括数据效率、内存效率、优化算法等。
通过引入结构化信息,如空间MLP和网格,以提升3D GS 在特定应用中的表现。
尽管 3D GS 取得了令人瞩目的成就,但仍有很大的改进空间,例如在数据和硬件需求、渲染和优化算法以及下游任务中的应用等方面。接下来的部分将详细阐述 3D GS 的一些扩展版本。这些方向包括:i) 数据高效的 3D GS(第 4.1 节),ii) 内存高效的 3D GS(第 4.2 节),iii) 逼真的 3D GS(第 4.3 节),iv) 改进的优化算法(第 4.4 节),v) 含有更多特性的 3D GS(第 4.5 节),以及 vi) 含有结构化信息的 3D GS(第 4.6 节)。
4.1 数据高效的3D GS
介绍通过正则化与通用性提升3D GS 数据效率的方法。
3D GS 的一个显著问题是当观测数据不足时容易出现伪影(artifacts)。这种挑战是辐射场渲染中的常见限制,稀疏数据通常会导致重建不准确。从实际角度来看,从有限的视角重建场景尤其重要,因为这有潜力通过最少的输入来增强功能性。
数据高效的 3D GS 主要有两种策略:
基于正则化的方法:引入额外的约束(如深度信息)来增强细节和全局一致性。例如,DNGaussian [49] 引入了一种深度正则化方法来解决稀疏输入视角下几何退化的问题;FSGS [46] 设计了一种高斯反池化过程用于初始化,并且引入了深度正则化;MVSplat [51] 提出了一个代价体积表示以提供几何线索。然而,当视角数量有限甚至只有一个时,正则化技术的效果往往会减弱。
基于泛化性的方法:这些方法主要侧重于学习先验,以生成无需优化即可直接用于渲染的 3D 高斯。此类方法通常需要多个视角进行训练,但可以只通过一个输入图像来重建 3D 场景。例如,PixelSplat [47] 提出从密集概率分布中采样高斯,并结合多视角极线变换器和重新参数化技巧,以避免局部最小值并保持梯度流动;Splatter Image [48] 在单目设置中通过一种基于学习的方法应用了 3D GS,利用一个二维图像到图像网络将输入图像映射到每个像素的 3D 高斯。
4.2 内存高效的3D GS
讲解降低3D高斯数量和属性内存压缩的技术以减小内存需求。
虽然 3D GS 展示了出色的能力,但其在大规模场景管理中的可扩展性面临显著挑战,尤其是与基于 NeRF 的方法相比,后者只需存储已学习 MLP 的参数即可。这一可扩展性问题在管理大规模场景时尤为突出,因为计算和内存需求急剧增加。因此,迫切需要在模型训练和存储中优化内存使用。
减少内存使用的主要有两种方向:
减少 3D 高斯数量:通过剪枝不重要的 3D 高斯来减少内存使用。例如,Papantonakis 等人 [63] 提出了一种分辨率感知剪枝方法,将高斯数量减少了一半;Lee 等人 [58] 引入了一种新的基于体积的掩码策略,有效减少了高斯数量,同时不影响性能。
压缩 3D 高斯属性的内存使用:例如,Niedermayr 等人 [61] 将颜色和高斯参数压缩到紧凑的码本中,使用敏感性测量进行有效量化和微调;HAC [62] 预测每个量化属性的概率,并设计了一个自适应量化模块。尽管当前的方法在存储方面(训练后)实现了几倍到几十倍的压缩比,但在训练阶段降低内存使用方面仍有很大的潜力。
4.3 真实感提升的3D GS
通过多分辨率、反射处理和几何感知等方法提高图像的真实感。
目前 3D GS 的渲染管道(见第 3.1 节)较为直接,存在一些不足之处。例如,简单的可见性算法可能导致高斯的深度/混合顺序的急剧切换 [10]。渲染图像的真实感,包括锯齿、反射和伪影等方面,还可以进一步优化。
以下是提升真实感的几个关键点:
可变分辨率 [67], [78]。由于离散采样范式(将每个像素视为一个单点而非一个区域),3D GS 在处理可变分辨率时容易出现锯齿,从而导致模糊或锯齿边缘。Yan 等人 [67] 认为这主要是因为传统的渲染方法无法有效管理像素采样频率与场景高频细节之间的差异,导致视觉伪影和性能问题。因此,他们引入了多尺度 3D GS,使场景使用不同大小的高斯来表示。Analytic-Splatting [78] 采用了像素区域内高斯积分的解析近似,利用条件逻辑函数的累积分布函数更好地捕捉像素的强度响应。
反射 [68], [97], [98]。实现反射材料的真实渲染是 3D 场景重建中的一个长期存在的难题。GaussianShader [68] 通过将简化的着色函数与 3D 高斯集成,增强了反射表面的神经渲染。
几何结构。3D GS 的一个局限性是忽略了底层场景的几何结构,特别是在复杂场景以及不同视角和光照条件下。因此引发了关于几何感知重建的研究 [22], [44], [99]--[102]。例如,GeoGaussian [77] 专注于保持无纹理区域(如墙壁和家具)的几何结构,这些区域往往会随着时间的推移而退化。
4.4 优化算法改进
探讨如何通过引入正则化、改进优化过程以及放松优化约束等方式改进3D GS。
各向异性高斯虽然在表示复杂几何形状时具有优势,但也可能导致不良的视觉伪影。例如,在具有视点相关外观的区域,大型 3D 高斯可能会导致"弹出伪影",即视觉元素突然出现或消失,破坏沉浸感。此外,引入额外的正则化(如几何 [77], [83] 和频率 [84])并改进 3D GS 的优化过程(第 3.2 节)可以加速收敛,平滑视觉噪声,并提高渲染图像的质量。
改进 3D GS 优化的三个主要方向如下:
引入额外的正则化 [22], [84]。3D GS 通常面临过度重建的问题,其中稀疏的大型 3D 高斯在高方差区域表现不佳,导致模糊和伪影。为了解决这个问题,FreGS [84] 引入了一种渐进频率正则化方法,从频率角度优化高斯密化。另一个显著的分支是几何感知重建,正如第 4.3 节所介绍的,这条研究线尤其关注如何保持场景的结构。例如,Scaffold-GS [22] 引入了锚点稀疏网格,以组织局部 3D 高斯,根据观察者的视角和距离动态调整属性,如不透明度和颜色。
改进优化过程 [44], [77]。为了解决纹理较少表面(特别是大规模场景)在密集初始化方面的挑战,GaussianPro [44] 设计了一种先进的高斯密化(第 3.2.2 节)策略,利用重建几何的先验和块匹配技术。
放宽优化中的约束 [81], [82]。对外部工具/算法的依赖可能会引入错误并限制系统的性能潜力。例如,在初始化过程中常用的 SfM 容易出错,且在处理复杂场景时表现不佳。Yang 等人 [81] 提出了无 COLMAP 的 3D GS,通过引入视频流连续性和显式点云表示来消除对 SfM 预处理的需求。
4.5 含有更多特性的 3D GS
尽管 3D GS 取得了显著成果,其 3D 高斯的属性(第 3.1 节)主要用于新视角合成。通过为 3D 高斯增加其他属性(如语言 [87]--[89]、语义/实例 [90]--[92] 和时空属性 [93]),3D GS 展示了其在各个领域的巨大潜力。
以下列出了 3D 高斯通过特殊设计属性实现的一些有趣应用:
语言嵌入的场景表示 [87]--[89]。由于当前语言嵌入的场景表示在计算和内存方面的高要求,Shi 等人 [87] 提出了一种量化方案,通过简化语言嵌入来增强 3D 高斯,而非使用原始高维嵌入。这种方法还通过跨视角的语义特征平滑,缓解了语义歧义,并提高了开放词汇查询的精度。
场景理解与编辑 [90]--[92]。Feature 3DGS [90] 结合 3D GS 与来自 2D 基础模型的特征场蒸馏。通过学习低维特征场并应用轻量卷积解码器进行上采样,Feature 3DGS 实现了更快的训练和渲染速度,同时支持语义分割和语言引导的编辑等应用。
时空建模 [93], [103]。为了捕捉 3D 场景的复杂时空动态,Yang 等人 [93] 将时空概念化为一个统一的实体,并使用一组 4D 高斯来近似动态场景的时空体积。所提出的 4D 高斯表示及相应的渲染管道能够建模空间和时间中的任意旋转,并支持端到端的训练。
4.6 含有结构化信息的 3D GS
除了为 3D 高斯增加其他属性外,适应下游任务的另一种有前途的途径是引入特定应用所需的结构化信息(例如,空间 MLP 和网格)。
接下来我们展示了一些 3D GS 结合特殊设计的结构化信息的有趣应用:
面部表情建模。考虑到在稀疏视角条件下创建高保真 3D 头部头像的挑战,Gaussian Head Avatar [96] 引入了可控的 3D 高斯和基于 MLP 的变形场。具体来说,它通过优化中性 3D 高斯和变形场,捕捉了详细的面部表情和动态,从而保证了细节的保真度和表情的准确性。
时空建模。Yang 等人 [94] 提出使用可变形 3D 高斯来重建动态场景。可变形的 3D 高斯在规范空间中学习,并与一个变形场(即空间 MLP)耦合,用于建模时空动态。所提出的方法还结合了一种退火平滑训练机制,以在不增加额外计算成本的情况下增强时间平滑性。
风格迁移。Saroha 等人 [153] 提出了风格化 GS,这是一种用于实时神经场景风格化的高级方法。为了在不影响渲染速度的情况下保持跨多个视角的一致风格化外观,他们使用了预训练的 3D 高斯、一个多分辨率哈希网格和一个小型 MLP 来生成风格化视图。
总之,引入结构化信息可以作为补充部分,适应那些与 3D 高斯的稀疏性和无序性不兼容的任务。
5. 应用领域与任务
详细介绍3D GS在各个领域中的应用,包括SLAM、动态场景重建、AIGC、自动驾驶、内窥镜场景重建和大规模场景重建等。
基于 3D GS 的快速发展,已经在多个领域中出现了广泛的创新应用(图 6),例如机器人(第 5.1 节)、动态场景重建和表示(第 5.2 节)、AI 生成内容(第 5.3 节)、自动驾驶(第 5.4 节)、医疗系统(第 5.5 节)、大规模场景重建(第 5.6 节)以及其他科学学科 [24], [154]--[156]。以下,我们重点介绍了一些突显 3D GS 变革性影响和潜力的关键例子。
5.1 同时定位与地图构建 (SLAM)
SLAM 是机器人和自动化系统的核心计算问题。它涉及机器人/设备在未知环境中理解其位置,同时映射环境布局的挑战。SLAM 在各种应用中至关重要,例如自动驾驶和机器人导航。SLAM 的核心是创建未知环境的地图,并实时确定设备在该地图上的位置。因此,SLAM 对计算密集的场景表示技术提出了巨大挑战,但它也为 3D GS 提供了一个很好的试验平台 [157]。
3D GS 以创新的场景表示方法进入了 SLAM 领域。传统的 SLAM 系统通常使用点云/面元云或体素网格来表示环境 [158]--[165]。相比之下,3D GS 利用各向异性的高斯更好地表示环境。最近的创新研究将 3D GS 应用于 SLAM [104]--[108], [110], [113], [166],展示了这一范式的潜力和多样性。一种直观的方法是使用 3D 高斯作为稠密地图的基本表示,并优化跟踪过程。例如,GS-SLAM [104] 采用了一种自适应策略,添加或移除 3D 高斯,以优化场景几何重建并改进对先前观察区域的映射。同样地,Sun 等人 [113] 在在线映射过程中引入了额外的正则化项,以避免过拟合到最新帧。SplaTAM [105] 集成了一种简单的在线跟踪和映射方法,利用剪影掩码捕捉场景密度,促进稠密优化和结构化地图扩展。另一方面,设计先进的场景表示值得探索。例如,Photo-SLAM [108] 提出了混合高斯地图,将显式几何特征用于精确定位,同时将隐式光度特征用于纹理映射。
此外,一个有趣的问题是基于高斯的地图表示如何帮助机器人任务,并且在导航方面已经有了一些早期的尝试 [167]--[169]。尽管表现令人印象深刻,现有的基于 GS 的 SLAM 系统仍面临诸如动态元素、传感器噪声、非朗伯物体和深度模糊等持久挑战,这些问题需要进一步探索。
5.2 动态场景重建
动态场景重建是指捕捉和表示随时间变化的场景的三维结构和外观的过程 [170]--[173]。这包括创建一个数字模型,准确反映场景中对象的几何形状、运动和视觉特征。动态场景重建在虚拟和增强现实、3D 动画和计算机视觉等各种应用中至关重要。
为了将 3D GS 的概念扩展到动态场景,一种直接的方法是引入时间维度,从而可以表示随时间变化的场景。基于 3D GS 的动态场景重建方法 [93]--[95], [103], [118]--[123], [174]--[178] 一般可以分为两大类。第一类利用了额外的结构化信息,例如空间 MLP 或网格(第 4.6 节)。例如,Yang 等人 [94] 首次提出了适用于动态场景的可变形 3D 高斯。这些 3D 高斯在规范空间中学习,可用于使用隐式变形场(由 MLP 实现)建模时空变形。GaGS [125] 涉及一组高斯分布的体素化,随后使用稀疏卷积提取几何感知特征,然后用于变形学习。
另一方面,第二类基于场景变化可以通过专门设计的渲染过程(第 4.5 节)编码到 3D 高斯表示中。例如,Luiten 等人 [118] 引入了动态 3D 高斯,通过保持 3D 高斯的属性随时间不变,同时允许它们的位置和方向变化来建模动态场景。Yang 等人 [93] 设计了一种 4D 高斯表示,其中使用额外的属性来表示 4D 旋转和球谐函数,以近似场景的时空体积。
尽管在高斯层级建模动态和变形方面取得了显著进展,但探索对象层级的运动建模仍然存在巨大的需求,这可能为普遍存在的挑战提供解决方案,例如减少伪影并精确捕捉长时间序列中的细粒度运动。
5.3 AI 生成内容 (AIGC)
AIGC 是指由人工智能系统自主创建或显著改变的数字内容,特别是在计算机视觉、自然语言处理和机器学习领域。AIGC 的特点在于其模拟、扩展或增强人类生成内容的能力,使其应用范围从逼真的图像合成到动态叙述创作。AIGC 的重要性在于其在各个行业中的变革潜力,包括娱乐、教育和技术开发 [179]--[182]。它是数字内容创作不断演变的关键元素,提供了可扩展、可定制且通常更高效的传统方法替代方案。
3D GS 的显式特性使其具有实时渲染能力和前所未有的控制和可编辑性,非常适合 AIGC 应用。3D GS 的显式场景表示和可微渲染算法与 AIGC 的需求完美契合,可用于生成高保真、实时和可编辑的内容,这对于虚拟现实、互动媒体及其他应用至关重要。最近的研究有效地将 3D GS 与生成模型 [126]--[129], [183]--[207]、化身 [23], [130]--[133], [208]--[229] 和场景编辑 [90]--[92], [102], [119]--[121], [134]--[136], [230]--[239] 等领域结合。
例如,DreamGaussian [126] 通过三步过程加速了从单视图图像生成逼真 3D 资产的过程:基于扩散的生成 GS 过程,随后是基于局部密度查询的高斯提取网格的高效算法,最后是 UV 空间细化阶段以改善纹理细节。通过将 3D GS 与参数化可变形面部模型结合,GaussianAvatars [214] 提供了增强的保真度和化身动画的灵活性,在新视图渲染和表情重演方面显著改进了现有方法。为了提高基于文本指令的编辑效果,Chen 等人 [134] 设计了一种语义追踪器,在训练期间追踪编辑目标,而 Fang 等人 [135] 提出提取与指令相对应的感兴趣区域。这些进步为众多工业应用带来了希望,包括数字资产化(网格提取)、长篇视频生成(例如 Sora)等。
5.4 自动驾驶
自动驾驶的目标是让车辆在没有人为干预的情况下进行导航和操作。这些车辆配备了一系列传感器,包括摄像头、激光雷达(LiDAR)和雷达,并结合先进的算法、机器学习模型以及强大的计算能力 [240]--[243]。其核心目标是感知环境、做出明智的决策并安全高效地执行操作 [244]--[247]。
自动驾驶车辆需要感知和解释周围环境,以确保安全驾驶。这包括实时重建驾驶场景,准确识别静态和动态对象,并理解它们的空间关系和运动 [248]--[250]。在动态驾驶场景中,由于其他车辆、行人或动物等移动对象,环境会不断变化。准确地重建这些场景对于安全导航至关重要,但由于涉及元素的复杂性和多样性,这是一项挑战。在自动驾驶中,3D GS 可以用于通过将数据点(例如通过 LiDAR 等传感器获得的数据)融合成一个连贯的连续表示来重建场景。这对于处理不同密度的数据点并确保平滑且准确地重建场景中的静态背景和动态对象尤其有用。
为了从稀疏的传感器数据中重建复杂的 3D 场景,尤其是在高速移动和包含移动对象的情况下,主流框架将城市/街道场景分为静态和动态元素,其中动态元素使用复合动态高斯图 [137]、与语义逻辑结合的点云 [138] 或物理约束模型 [139] 进行建模。通过深入研究基于物理和语义感知的 3D GS(参见第 7 节中的"物理和语义感知的场景表示"),3D GS 可以理想地作为自动驾驶中环境感知的基石。
5.5 内窥镜场景重建
手术 3D 重建是机器人辅助微创手术中的一项基本任务,旨在通过对动态手术场景的精确建模来增强术中导航、术前计划和教育模拟。在这一领域率先引入了最前沿的动态辐射场,最近的进展集中在克服单视角视频重建的固有挑战------例如手术器械的遮挡和内窥镜探查有限空间内视角的稀疏性 [252]--[254]。尽管取得了进展,但对组织可变形性的高保真度和拓扑变化的需求依然存在,同时对更快渲染的迫切需求也在增长,以便在对延迟敏感的应用中实现实用性 [140]--[142]。这种在内窥镜视频中重建变形组织的即时性和精确性的结合,对于推动机器人手术减少患者创伤和 AR/VR 应用至关重要,最终有助于营造更直观的手术环境并推动手术自动化和机器人技术的发展。
与典型的动态场景重建相比,内窥镜场景重建面临独特的挑战,例如由于受限的相机运动导致的稀疏训练数据、由于工具遮挡导致的未观察区域以及组织的显著非刚性变形。现有的方法主要利用额外的深度引导来推断组织的几何形状 [140]--[142]。例如,EndoGS [142] 集成了深度引导监督、时空权重掩码和表面对齐正则化项,以提高 3D 组织渲染的质量和速度,同时解决工具遮挡问题。EndoGaussian [141] 引入了两种新策略:整体高斯初始化用于稠密初始化,以及用于建模表面动态的时空高斯跟踪。Zhao 等人 [143] 指出这些方法存在欠重建问题,并提出从频率角度缓解该问题。此外,EndoGSLAM [116] 和 Gaussian Pancake [144] 为内窥镜场景设计了 SLAM 系统,并展示了显著的速度优势。请注意,目前的努力主要集中在从单一视角进行重建,这在手术应用中仍然面临障碍。
5.6 大规模场景重建
大规模场景重建是自动驾驶、航空测绘和 AR/VR 等领域的关键组成部分,要求具备逼真的视觉质量和实时渲染能力。在 3D GS 出现之前,这项任务主要使用基于 NeRF 的方法,虽然这些方法在较小的场景中有效,但在扩展到更大区域时(例如超过 1.5 平方公里)往往在细节和渲染速度上存在不足。尽管 3D GS 在许多方面优于 NeRF,但将其直接应用于大规模环境会引入显著挑战。为了在大规模场景中保持视觉质量,3D GS 需要大量高斯,从而导致 GPU 内存需求巨大并在渲染过程中带来巨大的计算负担。例如,一个 2.7 平方公里的场景可能需要超过 2000 万个高斯,这使得即使是最先进的硬件(例如 40GB 内存的 NVIDIA A100)也难以应对 [146]。
为了应对上述挑战,研究人员在两个关键领域取得了显著进展:i)对于训练,采用了分而治之的策略 [145]--[148],将大场景分割为多个独立的单元,从而促进对大型环境的并行优化。以同样的精神,Zhao 等人 [152] 提出了 3D GS 训练的分布式实现。保持视觉质量是另一项挑战,因为大规模场景通常具有无纹理的表面,这会影响优化效果,例如高斯初始化和密度控制(第 3.2 节)。改进优化算法是缓解该问题的可行解决方案 [44], [147]。ii)关于渲染,从计算机图形学中借鉴的细节层次(LoD)技术已被证明具有重要作用。LoD 调整 3D 场景的复杂度,以平衡视觉质量和计算效率。当前的实现包括仅将必要的高斯输入光栅化器 [147],或设计显式的 LoD 结构,例如八叉树 [148] 和层次结构 [145]。此外,集成额外的输入模态,如 LiDAR,可以进一步增强重建过程 [149]--[151]。在大规模场景重建中的一个突出挑战是有限的捕获,这可以通过利用良好的先验来缓解(见第 7 节中的"从大规模数据中学习物理先验")。
6. 性能比较
针对多种任务和领域,对比了不同3D GS方法的性能,涉及静态场景、动态场景、驾驶场景、人类头像建模、内窥镜场景等多方面评估指标。
在本节中,我们通过展示之前讨论的几个 3D GS 算法的性能,提供了更多的实证证据。由于 3D GS 在众多任务中的多样化应用,以及针对每个任务定制的算法设计,无法对所有 3D GS 算法在单一任务或数据集上进行统一比较。因此,基于第 5 节的分析,我们选择了 3D GS 领域内的几个具有代表性的任务,进行深入的性能评估。性能分数主要来源于原始论文,除非另有说明。
6.1 性能基准:定位
在 SLAM 中,定位任务涉及利用传感器数据确定机器人或设备在环境中的精确位置和方向。
-
数据集:Replica [255] 数据集包含 18 个高度详细的 3D 室内场景。这些场景不仅在视觉上非常真实,还提供了包括稠密网格、高质量 HDR 纹理以及每个元素的详细语义信息在内的全面数据。根据 [256],使用了三个关于房间的序列和五个关于办公室的序列进行评估。
-
基准算法:我们选择了五个最近的基于 3D GS 的算法 [104]--[107], [113] 和六个典型的 SLAM 方法 [256]--[261] 进行性能比较。
-
评估指标:绝对轨迹误差 (ATE) 的均方根误差 (RMSE) 是评估 SLAM 系统的常用指标 [262],该指标测量了整个轨迹中估计位置与真实位置之间的欧氏距离的均方根。
-
结果:如表 1 所示,最近的基于 3D 高斯的定位算法在现有基于 NeRF 的稠密视觉 SLAM 方法上具有明显的优势。例如,HFSLAM [113] 在轨迹误差上取得了约 50% 的改进,将误差从 0.52cm 减少到 0.25cm,相比之前的最先进方法(SOTA)[260]。我们认为这得益于为场景重建的稠密和准确的 3D 高斯,可以很好地处理真实传感器的噪声。这表明有效的场景表示可以提高定位任务的精度。
6.2 性能基准:静态场景
渲染的重点在于将计算机可读的信息(例如场景中的 3D 对象)转换为基于像素的图像。本节重点评估静态场景中的渲染质量。
- 数据集:使用与第 6.1 节相同的数据集,即 Replica [255],进行性能比较。
- 基准算法:为了进行性能比较,我们选择了四篇最近的引入 3D 高斯的论文 [104]--[107],以及三种稠密 SLAM 方法 [257], [258], [260]。
- 评估指标:使用峰值信噪比 (PSNR)、结构相似性 (SSIM) [263] 和学习的感知图像块相似性 (LPIPS) [264] 来衡量 RGB 渲染性能。
- 结果:表 2 显示,基于 3D 高斯的系统通常优于三种稠密 SLAM 的竞争对手。例如,Gaussian-SLAM [107] 创造了新的 SOTA,并且在很大程度上优于以前的方法。与 Point-SLAM [260] 相比,GSSLAM [106] 大约快了 578 倍,并且在精度上非常有竞争力。与依赖深度信息(例如深度引导光线采样)来合成新视图的先前方法 [260] 相比,基于 3D GS 的系统消除了这一需求,能够为任意视图进行高保真渲染。
6.3 性能基准:动态场景
本节重点评估动态场景中的渲染质量。
- 数据集:D-NeRF [170] 数据集包括每个场景中从不同视角拍摄的 50 到 200 帧的视频。它包含合成的复杂场景中的动画对象,并带有非朗伯材料。该数据集提供了每个场景 50 到 200 张训练图像和 20 张测试图像,专为在单目设置中评估模型而设计。
- 基准算法:我们选择了四篇对动态场景进行 3D GS 建模的最近论文 [93], [95], [119], [176],以及六种基于 NeRF 的方法 [33], [170], [173], [265]--[267] 进行比较。
- 评估指标:使用与第 6.2 节相同的指标,即 PSNR、SSIM [263] 和 LPIPS [264] 进行评估。
6.4 性能基准:驾驶场景
本节重点评估驾驶场景中的渲染质量,这对于自动驾驶至关重要。
- 数据集:nuScenes [243] 数据集是一个用于自动驾驶的综合数据集,包含 1000 个驾驶场景,这些场景通过包括六个摄像头、一个 LiDAR、五个雷达、GPS 和 IMU 在内的传感器阵列进行捕获。数据集为 23 个对象类别提供了带有 3D 边界框的详细注释。使用了六个具有挑战性的场景进行评估 [137]。
- 基准算法:为了进行性能比较,我们选择了一种基于 3D GS 的方法 [137],以及六种基于 NeRF 的方法 [8], [9], [268]--[271]。
- 评估指标:使用 PSNR、SSIM [263] 和 LPIPS [264] 进行评估。
- 结果:表 4 中的结果显示,基于 3D GS 的方法在所有评估指标上显著优于基于 NeRF 的方法。例如,DrivingGaussian-L [137] 在 PSNR 方面比 S-NeRF [270] 高出 3.31dB。这表明 3D 高斯可以利用多传感器信息来捕捉驾驶场景中的动态对象,尤其是快速移动的对象。
6.5 性能基准:人类化身
人类化身建模旨在从给定的多视角视频中创建人类化身的模型。
- 数据集:ZJU-MoCap [272] 数据集是视频中人类建模的常用基准,通过 23 个同步摄像机以 1024×1024 分辨率捕获。根据 [273],使用了六个对象(即 377, 386, 387, 392, 393 和 394)进行评估。
- 基准算法:为了进行性能比较,我们选择了四篇使用 3D GS 对人类化身进行建模的最近论文 [210], [212], [221], [224],以及六种人类渲染方法 [272]--[277]。
- 评估指标:使用 PSNR、SSIM [263] 和 LPIPS* [264] 来衡量 RGB 渲染性能。这里 LPIPS* 等于 LPIPS × 1000。
- 结果:表 5 展示了在人类化身建模中的顶级解决方案的数值结果。我们观察到,将 3D GS 引入框架在渲染质量和速度上都带来了持续的性能提升。例如,GART [210] 在 PSNR 方面比当前 SOTA,Instant-NVR [277],高出 1.21dB。请注意,Human101 [224] 在达到非常有竞争力的精度方面比 Instant-NVR [277] 快了约 68 倍。考虑到增强的保真度、推理速度和可编辑性,基于 3D GS 的化身建模可能会彻底改变 3D 动画、互动游戏等领域。
6.6 性能基准:手术场景
从内窥镜视频中进行 3D 重建对于机器人辅助微创手术至关重要,能够实现术前计划、通过 AR/VR 仿真进行训练以及术中指导。
- 数据集:EndoNeRF [252] 数据集呈现了一个专门的立体摄像机采集数据集,包括两个体内前列腺切除术样本。该数据集旨在代表真实世界手术的复杂性,包括具有工具遮挡和显著非刚性变形的挑战性场景。
- 基准算法:为了进行性能比较,我们选择了三篇最近使用 GS 重建动态 3D 内窥镜场景的论文 [140]--[142],以及三种基于 NeRF 的手术重建方法 [252]--[254]。
- 评估指标:采用 PSNR、SSIM [263] 和 LPIPS [264] 进行评估。此外,还报告了对 GPU 内存的需求。
- 结果:表 6 显示,引入 3D 高斯的显式表示带来了显著的改进。例如,EndoGaussian [141] 在所有指标上优于强基线 LerPlane-32k [253]。特别是,EndoGaussian 在速度上约提高了 224 倍,同时仅消耗了 10% 的 GPU 资源。这些令人印象深刻的结果证明了基于 GS 的方法的效率,这些方法不仅加快了处理速度,还最大限度地减少了 GPU 负载,从而减轻了硬件的需求。这些特性对于真实手术应用的部署至关重要,其中优化的资源使用可以成为实用性的关键决定因素。
7. 未来研究方向
总结3D GS的未来研究方向,包括物理和语义感知的场景表示、学习物理先验、机器人应用等。
尽管 3D GS 在众多后续工作中取得了显著进展,并且这些领域已经或可能会被 3D GS 彻底改变,但普遍认为 3D GS 仍有很大的改进空间。
-
物理和语义感知的场景表示:作为一种新的显式场景表示技术,3D 高斯不仅仅在增强新视角合成方面具有变革潜力。它还可能通过开发物理和语义感知的 3D GS 系统,为场景重建和理解带来同步进展,有望彻底改变多个领域和下游应用。例如,结合物体一般形状等先验知识可以减少对大量训练视角的需求 [47], [48],同时改善几何/表面重建 [77], [100]。评估场景表示的关键指标是生成场景的真实感,其中包括几何、纹理和光照保真度方面的挑战 [66], [121], [134]。通过在 3D GS 框架中融合物理原则和语义信息,有望提高真实感,从而促进动态建模 [21], [278]、编辑 [90], [92]、生成 [126], [127] 等应用。简而言之,追求这种先进且多功能的场景表示为计算创造力和不同领域的实际应用创新开辟了新的可能性。
-
从大规模数据中学习物理先验:在探索物理和语义感知的场景表示的过程中,利用大规模数据集学习物理先验成为一个有前景的方向。目标是建模真实世界数据中固有的物理属性和动态,将其转化为可应用于各个领域的可操作见解,如机器人技术和视觉效果。建立一个提取这些物理先验的学习框架,可以使这些见解应用于特定任务中,实现少样本学习。例如,这使得在最少的数据输入下,可以快速适应新的对象和环境。此外,结合物理先验不仅可以提高生成场景的准确性和真实感,还可以增强它们的交互性和动态特性。这在 AR/VR 环境中特别有价值,在这些环境中,用户与虚拟对象交互,而这些对象的行为方式与现实世界一致。然而,现有关于从大规模 2D 和 3D 数据集中捕获和提炼基于物理知识的工作仍然很少。相关领域的显著努力包括用于弹性物体建模的弹簧-质量 3D 高斯 [279] 和基于多视图立体的可泛化高斯表示 [280]。对 real2sim 和 sim2real 的进一步探索可能为该领域的进展提供可行的途径。
-
3D GS 在机器人领域的应用:在机器人领域,尤其是机器人执行涉及类似人类处理物体的任务时,越来越需要这些机器能够以更直观和动态的方式导航和操作它们的环境。这种需求源于希望在现实世界中部署智能机器人,这些机器人通常面临新的和不熟悉的任务。传统的机器人操作方法主要依赖于通过语义表示来理解环境,这意味着识别对象及其属性。然而,这些方法通常忽略了物体如何随时间移动和交互的重要性,而这是以人类意图完成任务所必需的。3D GS 的显式特性使其不仅能用于环境的语义和结构分析,还可以涵盖动态方面,从而全面理解场景的演变和物体的交互过程。尽管基于 GS 的早期工作在世界模型 [281], [282] 和强化学习 [283], [284] 上取得了初步成果,但它们只是可能性的一部分。该领域的进一步研究有望提高机器人在执行任务时对物理空间和时间变化的理解能力。
-
使用 3D GS 建模对象的内部结构:尽管 3D GS 能够生成高真实感的渲染,但在现有 GS 框架下对对象内部结构(例如计算机断层扫描中扫描的物体)进行建模仍然存在显著挑战。由于溅射和密度控制过程,当前的 3D 高斯表示是无序的,无法很好地与物体的实际内部结构对齐。此外,在许多应用中存在强烈的将对象描绘为体积的偏好(例如,计算机断层扫描)。然而,3D GS 的无序特性使得体积建模特别困难。Li 等人 [285] 使用具有密度控制的 3D 高斯作为体积表示的基础,且不涉及溅射过程。X-Gaussian [286] 涉及溅射过程以实现快速训练和推理,但无法生成体积表示。使用 3D GS 建模对象内部结构仍是一个未解的问题,值得进一步探索。
-
3D GS 在自动驾驶仿真中的应用:对于自动驾驶来说,收集真实世界的数据集既昂贵又存在后勤挑战,但对于训练有效的基于图像的感知系统至关重要。为了缓解这些问题,仿真成为一种具有成本效益的替代方案,使得可以在多样化的环境中生成合成数据集。然而,开发能够生成真实且多样化的合成数据的模拟器面临许多挑战,包括实现高水平的真实感、适应各种控制方法以及准确模拟各种光照条件。尽管基于 3D GS 的早期工作在重建城市/街道场景方面取得了令人鼓舞的进展 [137]--[139],但这仅仅是冰山一角。仍然存在许多需要探索的重要方面,例如集成用户定义的对象模型、物理感知场景变化(例如车辆轮胎的旋转)建模,以及增强可控性和真实感(例如在不同光照条件下)。
-
赋予 3D GS 更多可能性:尽管 3D GS 具有巨大的潜力,但 3D GS 的应用范围仍然基本未被充分开发。一个有前途的探索方向是为 3D 高斯增添更多属性(例如第 4.5 节中提到的语言和时空属性),并为特定应用引入结构化信息(例如第 4.6 节中提到的空间 MLP 和网格)。此外,最近的研究已经开始揭示 3D GS 在多个领域的能力,例如点云配准 [287]、图像表示与压缩 [60] 和流体合成 [288]。这些发现为跨学科学者进一步探索 3D GS 提供了重要的机会。