99、NeRF ray space

CG相机模型

在图形学中最常用的相机模型的原理和小孔成像是类似的。

不同之处在于，如上图，小孔成像得到的图像是倒立的，但是我们希望得到的图像是正向的，因此，我们选择小孔前成像。

从 3D 到 2D 的投影，就是根据 3D 物体的坐标，计算其投影到 2D 成像平面上的坐标。对于一个已有的相机而言，只有在恰当位置范围内的 3D 物体才可能投影到成像平面上。这个恰当范围，跟成像平面的大小，以及相机中心到平面距离等因素有关。

在图形学中有一个专门的模型来定义这个范围：

上图这个形似棱锥的模型，就是相机的可视范围。其中，有两个重要的概念：Near clipping plane 和 Far clipping plane。

Near clipping plane 是相机前方的平面，也就是成像平面，Far clipping plane 是更远处的平面，限制了相机最远可视的范围，它们都与相机的 z 轴垂直。在这两个平面之间的空间，就是相机的可视范围。在这个范围内的物体，才能投影到相机的成像平面上。在图形学中，这个可视范围被称为视锥体 (Viewing Frustum)。

在真实的相机中，Far clipping plane 一般是无限远的，但在图形学中，为了简化计算，一般将其设置为有限的距离。

3D坐标到2D坐标

上图是一个典型的物体投影到屏幕上的过程。我们假设已经获得了物体在世界坐标系中的坐标，在世界坐标系转换到图像坐标系的过程中，涉及以下过程。

世界坐标系转换到相机坐标系

对三维物体投影的第一步，是将三维物体从世界坐标系转换到以相机为中心的坐标系统，这样方便后续的投影计算。

相机坐标系是以相机为中心的坐标系 (也叫 eye coordinates)，由于相机和世界坐标系的原点可能不同，且其坐标轴方向和世界坐标系可能不同，因此世界坐标系和相机坐标系的转换一般涉及旋转平移两项操作。

在图形学中，通常使用齐次坐标，并配合 4x4 的矩阵来完成两个坐标系统的转换。

相机坐标系到屏幕坐标系

获得物体的相机坐标系（Near clipping plane 和 Far clipping plane 之间）后，接下来就可以计算物体投影到成像平面上的坐标。

这个过程可以根据相似三角形的原理计算得出。

如上图所示，假设相机的中心在 A 点，三维物体在 C 点，其在成像平面上的投影为 C'。

由于我们已经获得了物体在相机坐标系中的坐标，因此可以计算出 AB、BC 的长度。而 AB'、B'C' 的长度，可以根据相似三角形的原理计算出来 (上图假设相机焦距是 1，但实际情况中不做限制，我们用 Z n e a r Z_{near} Znear表示)：

B C A B = B ′ C ′ A B ′ \frac{BC}{AB} = \frac{B'C'}{AB'} ABBC=AB′B′C′

即

P . y ∣ P . z ∣ = P ′ . y Z n e a r P ′ . y = Z n e a r ∗ P . y ∣ P . z ∣ \frac{P.y}{|P.z|} = \frac{P'.y}{Z_{near}} \\ P'.y = \frac{Z_{near}*P.y}{|P.z|} ∣P.z∣P.y=ZnearP′.yP′.y=∣P.z∣Znear∗P.y

同样的，可以算出 : P ′ . x = Z n e a r ∗ P . x ∣ P . z ∣ P'.x = \frac{Z_{near}*P.x}{|P.z|} P′.x=∣P.z∣Znear∗P.x

对于 z 轴坐标来说，由于 Near clipping plane 和 z 轴是垂直的，因此所有投影到成像平面上的点，z 坐标都是相同的。而事实上在投影到 2D 坐标后，z 轴坐标已经没有意义了，因此可以直接忽略。

从 P ′ . x P'.x P′.x 和 P ′ . y P'.y P′.y 可以发现，投影到成像平面上的坐标，其 x 和 y 坐标都是除以 z 坐标得到的。因此这种投影变换也被称为 z divide 或者 perspective divide。这也是透视投影的特点，投影到成像平面上的坐标，其 x 和 y 坐标都是与 z 坐标绝对值成反比的。也因此，物体越远，其在屏幕上的大小越小。

屏幕坐标系到图像坐标系

转换到屏幕坐标系后，我们理论上已经获得了物体的 2D 坐标，但这个坐标并不是最终图像上的坐标。

在第 2 步相机坐标系到屏幕坐标系的转换中，不难发现，屏幕坐标系的原点是在屏幕中心的，但在图像坐标系中，原点一般是在左上角或者左下角。因此，要转换到图像坐标系，还需要一步归一化的过程。

在不同的系统中，图像坐标系的原点是存在差异的。比如，有些系统中的图像原点位于左下角，y 轴朝上，但有些则反着来。而 NDC 坐标系是一个跟设备无关的坐标系统，它将图像的 x/y/z 轴都统一归一化到 [0, 1]，并规定了坐标轴方向 (在有些图形系统中，也会将 x/y/z 轴归一化到 [-1, 1])，如下图所示 (中间即是 NDC 坐标系)。

NDC 全称是 Normalized Device Coordinate，也即归一化的设备坐标系。这是从屏幕坐标系转换到图像坐标系的中间媒介。

用上图的例子来演示 屏幕坐标系 -> NDC 坐标系 -> 图像坐标系 (即上图的 raster 坐标系) 的转换过程。

假设 投影屏幕 长宽分别为 height、width，NDC 的原点在左下角，y 轴朝上，那么，屏幕坐标系到 NDC 坐标系的转换公式为：

P b d c . x = P ′ . x + w i d t h / 2 w i d t h P b d c . y = P ′ . y + h e i g h t / 2 h e i g h t P_{bdc}.x = \frac{P'.x+width/2}{width} \\ P_{bdc}.y = \frac{P'.y+height/2}{height} Pbdc.x=widthP′.x+width/2Pbdc.y=heightP′.y+height/2

假设图像大小为 image_height、image_width，图像原点位于左上角，y 轴朝下。那么，NDC 坐标系 到图像坐标系的转换公式为：

P i m a g e . x = P n d c . x ∗ i m a g e _ w i d t h P i m a g e . y = ( 1 − P n d c . y ) ∗ i m a g e _ h e i g h t P_{image}.x = P_{ndc}.x * image\width \\ P{image}.y = (1-P_{ndc}.y) * image\_height Pimage.x=Pndc.x∗image_widthPimage.y=(1−Pndc.y)∗image_height

NDC 坐标系是连续的坐标系，只有转换到图像坐标系，才会对坐标进行取整操作。此外，NDC 坐标系仍是三维坐标系，不过在考虑投影的时候，z 轴通常会被忽略

OpenGL 中，NDC 坐标到 raster 图像坐标的转换过程，也被称为 viewport transform

采用 NDC 坐标的好处是，我们可以将 NDC 看作是一个通用的坐标系统，并将不同系统的坐标统一起来。比如，我们在将屏幕坐标系 转换到图像坐标系 时，可以先换算到统一的 NDC 坐标系中，再实现二者的相互转化。在 NDC 坐标系中进行处理的时候，就不需要关心投影屏幕长宽、图像大小等信息了。

投影矩阵(Projection Matrix)

从上面三维坐标到二维坐标的转换过程中，不难发现，整个过程涉及步骤很多，非常繁琐。为了简化计算，在很多图形系统中，会将物体从相机坐标系到 NDC 坐标系的过程，用一个矩阵串联起来 (即投影矩阵)。

即完成所有操作总共需要两个矩阵：世界坐标系和相机坐标系之间的变换矩阵、投影矩阵。

理解投影矩阵，对后面 NeRF 中 NDC 坐标系统的推导至关重要。因此，这里先详细介绍投影矩阵的由来，并补充一些相关的数学知识。

不同坐标系统的转换

三维坐标转二维坐标的第一步，就是将物体从世界坐标系转换到相机坐标系。

这一步在投影矩阵的求解中是不需要的。不过，由于图形学中，不同坐标系之间的转换是一个基本操作。

任何三维坐标系统，都可以用三个互相垂直的坐标轴以及坐标原点来唯一确定。

这三个坐标轴，在线性代数中，也被称为基向量v={ v 1 , v 2 , v 3 v_1,v_2,v_3 v1,v2,v3} 。通常情况下，我们会用标准向量 e 1 = [ 1 , 0 , 0 ] e_1=[1,0,0] e1=[1,0,0]、 e 1 = [ 0 , 1 , 0 ] e_1=[0,1,0] e1=[0,1,0]、 e 1 = [ 0 , 0 , 1 ] e_1=[0,0,1] e1=[0,0,1] 来表示这三个坐标轴。不过事实上也可以随意定义，只要它们线性无关，可以表达出整个三维空间即可。

现在，假设有两个不同的坐标系统 A 和 B。A 的基向量 v = { v 1 , v 2 , v 3 } v=\{v_1,v_2,v_3\} v={v1,v2,v3}，B 的基向量 u = { u 1 , u 2 , u 3 } u=\{u_1,u_2,u_3\} u={u1,u2,u3} 。根据线性无关，可以得出：

u 1 = γ 11 v 1 + γ 12 + γ 13 v 3 u 2 = γ 21 v 1 + γ 22 + γ 23 v 3 u 3 = γ 31 v 1 + γ 32 + γ 33 v 3 u_1 = \gamma_{11}v_1+\gamma_{12}+\gamma_{13}v_3 \\ u_2 = \gamma_{21}v_1+\gamma_{22}+\gamma_{23}v_3 \\ u_3 = \gamma_{31}v_1+\gamma_{32}+\gamma_{33}v_3 \\ u1=γ11v1+γ12+γ13v3u2=γ21v1+γ22+γ23v3u3=γ31v1+γ32+γ33v3

用矩阵方程的形式表示为：
u = M v u=Mv u=Mv

对于三维空间中的某个点 w 来说，均可以由 u、v 这两个坐标系表示：
w = a T v = b T u w=a^Tv=b^Tu w=aTv=bTu

其中的 a T a^T aT和 b T b^T bT 其实就是 w 在这两个坐标系统中的坐标。再结合公式 (2)，可以得到：

w = b T u = b T M v = a T v w=b^Tu=b^TMv=a^Tv w=bTu=bTMv=aTv

由此推出， a = M T b , b = ( M T ) − 1 a a=M^Tb,b=(M^T)^{-1}a a=MTb,b=(MT)−1a

到这里，我们就发现：对于点 w 来说，想要从坐标系 A 转换到坐标系 B，只需要对原坐标系 A 中的坐标，乘以一个矩阵 M 即可。反之，则是乘以矩阵的逆 ( M T ) − 1 (M^T)^{-1} (MT)−1。而这个矩阵M ，可以通过两个坐标系统的基向量，也就是坐标轴，通过公式 (1) 的矩阵方程进行求解。

在将物体从世界坐标系转到相机坐标系的过程中，只需要将这个矩阵应用到世界坐标系的物体坐标上，就可以得到三维物体相对于相机坐标系的位置坐标。

这个过程中，物体的实际位置没有发生任何改变，只不过它的坐标，从相对于世界坐标系，变成相对于相机坐标系。

齐次坐标(Homogenous Coordinates)

上面提到的变换矩阵 M 存在一点不足，那就是它只能表达旋转和缩放操作，但无法表达平移。具体原因有很多资料已做了描述，这里不再赘述。

在三维世界中，旋转、缩放、平移是三个最基础的操作，因此，为了将平移也融入矩阵运算中，人们引入了齐次坐标。

齐次坐标相比普通的三维坐标，就是在 x、y、z 之外，再引入一维 w:[x,y,z,w]。

同时我们规定 [x,y,z]=[x,y,z,w=1]，即当 w=1 时，齐次坐标可以等价于普通的三维坐标。

如果 w ≠ 1 w\neq1 w=1 ，那换算方法是： [ x , y , z , w ] = [ x w , y w , z w ] [x,y,z,w] = [ \frac{x}{w},\frac{y}{w},\frac{z}{w}] [x,y,z,w]=[wx,wy,wz]。

引入齐次坐标后，变换矩阵自然也可以拓展成 4x4 的维度。