3DGS 其一：3D Gaussian Splatting for Real-Time Radiance Field Rendering

[1. 预备知识](#1. 预备知识)
- [1.1 球谐函数](#1.1 球谐函数)
- [1.2 Splatting](#1.2 Splatting)
- [1.3 α \alpha α blending](#1.3 α \alpha α blending)
- [1.4 多维高斯的协方差矩阵](#1.4 多维高斯的协方差矩阵)
- - [1.4.1 高斯与椭球体的关系](#1.4.1 高斯与椭球体的关系)
  - [1.4.2 世界坐标系下的三维高斯到二维像素平面投影过程](#1.4.2 世界坐标系下的三维高斯到二维像素平面投影过程)
[2. 3D Gaussian Splatting](#2. 3D Gaussian Splatting)
- [2.1 特点](#2.1 特点)
- [2.2 流程与关键步骤](#2.2 流程与关键步骤)
- - [2.2.1 场景表达](#2.2.1 场景表达)
  - [2.2.2 整体流程](#2.2.2 整体流程)
- [2.3 算法伪代码](#2.3 算法伪代码)
- - [2.3.1 整体流程伪代码](#2.3.1 整体流程伪代码)
  - [2.3.2 光栅化伪代码](#2.3.2 光栅化伪代码)

Reference：

相关文章：

系列文章：

3DGS 其一：3D Gaussian Splatting for Real-Time Radiance Field Rendering

3D Gaussian Splatting 是表达三维场景的一种方式，不同于 NeRF 用一个点来表达，它是用一堆的 3D 高斯来表达。

1. 预备知识

1.1 球谐函数

球谐函数这一块请阅读 Instant-NGP 一文内的相关片段：NeRF 其三：Instant-NGP，此处不再做赘述。

1.2 Splatting

Splatting(抛雪球) 是一种用于光栅化(rasterizer) 3D 对象(如椭球)的技术。这些 3D 对象被映射到投影平面后得到的 2D 图形称为 splat，类似于一个点、圆、矩形或其他形状，就像雪球打在墙上留下的印记，能量从中心向外扩散并减弱(就像抛出一个雪球砸在墙上一样)。

换句话说，三维场景不用三维点表达，而用一个个高斯球来表达。将一个个高斯球投影到二维图像上的过程就称为 Splatting 算法。
该光栅化过程可以在 GPU 上并行处理，因为每个 Splat 之间是独立的。

1.3 α \alpha α blending

α \alpha α blending 算法主要解决"图层"叠加问题。

两幅图融合，其中图像 I 1 I_1 I1 的透明度为 α 1 \alpha_1 α1(前景图像)，图像 I B K I_{BK} IBK 为背景图像，融合公式计算如下：
I r e s u l t = I 1 × α 1 + I B K × ( 1 − α 1 ) (1) \tag{1} I_{\mathrm{res}ult}=I_1\times\alpha_1+I_{BK}\times(1-\alpha_1) Iresult=I1×α1+IBK×(1−α1)(1)那么按照深度由近到远的排序四张图像，其中，图像 I 1 I_1 I1 的透明度为 α 1 \alpha_1 α1，图像 I 2 I_2 I2 的透明度为 α 2 \alpha_2 α2，图像 I 3 I_3 I3 的透明度为 α 3 \alpha_3 α3，图像 I B K I_{BK} IBK 为背景图像，融合公式计算如下：
I result = I 1 × α 1 + ( 1 − α 1 ) ( I 2 × α 2 + ( 1 − α 2 ) ( I 3 × α 3 + I B K × ( 1 − α 3 ) ) ) = α 1 I 1 + ( 1 − α 1 ) α 2 I 2 + ( 1 − α 1 ) ( 1 − α 2 ) α 3 I 3 + ( 1 − α 1 ) ( 1 − α 2 ) ( 1 − α 3 ) I B K (2) \tag{2} \begin{aligned} I_\text{result} &= I_ 1 \times \alpha _ 1 + ( 1 - \alpha _ 1 ) (I_2\times\alpha_2+(1-\alpha_2)(I_3\times\alpha_3+I_{BK}\times(1-\alpha_3))) \\ &=\alpha_1I_1+(1-\alpha_1)\alpha_2I_2+(1-\alpha_1)(1-\alpha_2)\alpha_3I_3+(1-\alpha_1)(1-\alpha_2)\left(1-\alpha_3\right)I_{BK} \end{aligned} Iresult=I1×α1+(1−α1)(I2×α2+(1−α2)(I3×α3+IBK×(1−α3)))=α1I1+(1−α1)α2I2+(1−α1)(1−α2)α3I3+(1−α1)(1−α2)(1−α3)IBK(2)可以从底往上看，

I B K I_{BK} IBK 看成 I I I；
I 3 × α 3 + I B K × ( 1 − α 3 ) I_3\times\alpha_3+I_{BK}\times(1-\alpha_3) I3×α3+IBK×(1−α3) 合并成 I ′ I' I′，将透明度 α 3 \alpha_3 α3 套入公式可得；
I 2 × α 2 + ( 1 − α 2 ) ( I 3 × α 3 + I B K × ( 1 − α 3 ) ) I_2\times\alpha_2+(1-\alpha_2)(I_3\times\alpha_3+I_{BK}\times(1-\alpha_3)) I2×α2+(1−α2)(I3×α3+IBK×(1−α3)) 合并成 I ′ ′ I'' I′′，将透明度 α 2 \alpha_2 α2 套入公式可得。

也可以从上往下看，直接得到 Eq.2 底部公式。

综上， α \alpha α blending 公式可以写成：
C = ∑ i ∈ N c i α i ∏ j = 1 i − 1 ( 1 − α j ) C=\sum_{i\in\mathcal{N}}c_i\alpha_i\prod_{j=1}^{i-1}(1-\alpha_j) C=i∈N∑ciαij=1∏i−1(1−αj)回顾体渲染公式：
C = ∑ i = 1 N T i ( 1 − exp ⁡ ( − σ i δ i ) ) c i w i t h T i = exp ⁡ ( − ∑ j = 1 i − 1 σ j δ j ) C=\sum_{i=1}^NT_i(1-\exp(-\sigma_i\delta_i))\mathbf{c}i\quad\mathrm{with}\quad T_i=\exp\left(-\sum{j=1}^{i-1}\sigma_j\delta_j\right) C=i=1∑NTi(1−exp(−σiδi))ciwithTi=exp(−j=1∑i−1σjδj)使用 α i \alpha_i αi 来替代 1 − exp ⁡ ( − σ i δ i ) 1-\exp(-\sigma_i\delta_i) 1−exp(−σiδi)，可得：
C = ∑ i = 1 N T i α i c i α i = ( 1 − exp ⁡ ( − σ i δ i ) ) and T i = ∏ j = 1 i − 1 ( 1 − α i ) C=\sum_{i=1}^NT_i\alpha_i\mathbf{c}i\quad\alpha_i=(1-\exp(-\sigma_i\delta_i))\text{and}T_i=\prod{j=1}^{i-1}(1-\alpha_i) C=i=1∑NTiαiciαi=(1−exp(−σiδi))andTi=j=1∏i−1(1−αi)可以发现，该公式和 α \alpha α blending 公式一模一样。

这里可以得到一个很有意思的结论： α \alpha α blending 和体渲染都是相同的公式，但是具体做法是完全不一样的：体渲染是 NeRF 的一套做法， α \alpha α blending 是 3D Gaussian Splatting 的一套做法。很多游戏都是使用 α \alpha α blending 方法进行光栅化的。体渲染速度很慢，而光栅化很快，而且它是图形学内很成熟得东西，有很多软件可以辅助加速，比如 OpenGL，这样就可以充分利用硬件和软件的性能。

1.4 多维高斯的协方差矩阵

如果一个随机变量 x \boldsymbol{x} x 服从高斯分布高斯分布 N ( μ , σ ) N(\mu, \sigma) N(μ,σ)，那么它的概率密度函数为：
p ( x ) = 1 2 π σ exp ⁡ ( − 1 2 ( x − μ ) 2 σ 2 ) . p\left(x\right)=\frac1{\sqrt{2\pi}\sigma}\exp\left(-\frac12\frac{\left(x-\mu\right)^2}{\sigma^2}\right). p(x)=2π σ1exp(−21σ2(x−μ)2).它的高维形式为：
p ( x ) = 1 ( 2 π ) N det ⁡ ( Σ ) exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p\left(x\right)=\frac1{\sqrt{\left(2\pi\right)^{N}\det\left(\boldsymbol{\Sigma}\right)}}\exp\left(-\frac12{\left(\boldsymbol{x}-\boldsymbol{\mu}\right)}^{T}\boldsymbol{\Sigma}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)\right) p(x)=(2π)Ndet(Σ) 1exp(−21(x−μ)TΣ−1(x−μ))这里前面系数不太重要，公式可简写成： G ( x ) = e − 1 2 ( x ) T Σ − 1 ( x ) G(\boldsymbol{x})=e^{-\frac{1}{2}}(\boldsymbol{x})^{T}\Sigma^{-1}(\boldsymbol{x}) G(x)=e−21(x)TΣ−1(x)。

现在来看看协方差矩阵的性质：

二维的协方差矩阵可写成 [ a c c b ] \left [ \begin{matrix}a & c \\ c & b\end{matrix} \right ] [accb] 的形式、三维的 协方差矩阵可写成 [ a d e d b f e f c ] \left [ \begin{matrix}a & d & e \\ d & b & f \\ e & f & c\end{matrix} \right ] adedbfefc 的形式，这个矩阵一定是对称的。在斜对角不为零的情况下，它一定是正定的。对于这种对称矩阵，它一定能有一个正交的矩阵将它三角化，即：
Σ = P Λ P T = P Λ 1 2 ( Λ 1 2 ) T P T \Sigma = P \Lambda P^T = P \Lambda^{\frac{1}{2}} (\Lambda^{\frac{1}{2}})^TP^T Σ=PΛPT=PΛ21(Λ21)TPT即 Σ = R S S T R T \Sigma=RSS^TR^T Σ=RSSTRT，也就是说，只要我们要去表达一个协方差矩阵，只要知道了 R R R 和 S S S 即可。而且 R R R 和 S S S 构建出的矩阵，一定是单位阵。因为 R R R 是一个正交阵，只要 S S S 不全为 0 0 0，构建出的就是一个正定矩阵。

那么这里的协方差矩阵有什么具体的含义呢？

假设有一二维矩阵 [ σ 1 2 0 0 σ 2 2 ] \left [ \begin{matrix}\sigma_1^2 & 0 \\ 0 & \sigma_2^2\end{matrix} \right ] [σ1200σ22]，该矩阵表示分布的两个维度 ( x 1 , x 2 ) T (x_1, x_2)^T (x1,x2)T 间是没有相关性的，所以右上和左下矩阵的系数为 0 0 0。如果有相关性，这个地方就应该有系数：如果是正数， x 1 x_1 x1 增大 x 2 x_2 x2 就会增大；如果是负数， x 1 x_1 x1 增大 x 2 x_2 x2 就会减小。

在没有相关性时，将所有点投影到 x 1 x_1 x1 方向上，它符合 σ 1 \sigma_1 σ1 的分布，其分布如下图在 x 1 x_1 x1 轴上方黑线所示。

1.4.1 高斯与椭球体的关系

由于三维高斯不好表现，先来从二维高斯看三维高斯与椭球体的关系：

函数 G ( x ) = e − 1 2 ( x ) T Σ − 1 ( x ) G(\boldsymbol{x})=e^{-\frac{1}{2}}(\boldsymbol{x})^{T}\Sigma^{-1}(\boldsymbol{x}) G(x)=e−21(x)TΣ−1(x)，因为现在是二维， x = ( x 1 , x 2 ) T \boldsymbol{x}=(x_1, x_2)^T x=(x1,x2)T。当 G ( x ) G(\boldsymbol{x}) G(x) 为常数时，组成了这个常数的 x \boldsymbol{x} x，将是一个什么样的分布形状？

如果令 G ( x ) G(\boldsymbol{x}) G(x) 为常数，那么就是说 ( x ) T Σ − 1 ( x ) (\boldsymbol{x})^{T}\Sigma^{-1}(\boldsymbol{x}) (x)TΣ−1(x) 应该是一个常数，因为 e − 1 2 e^{-\frac{1}{2}} e−21 这一部分是固定计算的。还是以协方差矩阵 [ σ 1 2 0 0 σ 2 2 ] \left [ \begin{matrix}\sigma_1^2 & 0 \\ 0 & \sigma_2^2\end{matrix} \right ] [σ1200σ22] 为例，则公式变成了：