MVSnet 代码详解（pytorch）

大致过一下MVSnet 论文中核心的点对应代码应该怎么写。

forward 函数需要照片，映射矩阵，以及深度值。照片的shape是（1，5,3，1184,1600）代表着1个batch,5张图片，然后一次是每张图片的channel和大小。projection_matrix是（1,5，4,4）代表着5个(4*4)的举证。深度shape是（192,1）（这个还不知道为什么是这个shape）。

首先这输入进入self.feature里面去提取特征，self.feature 是一个feature net。他包括了6层 con2d +batchnorm2d

得到特征之后，就需要构建cost volume。

homo_warping是一个比较重要的函数，他的主要功能就是去实现differentiable homography。

这个函数需要src_fearture,src projection metrics, reference projection matrix,以及相对应的depth value。我的理解是，这里给到的 src_projection matrix是指，从src的相机坐标系投射到世界坐标系的投影矩阵。同理reference projection matrix 也是从reference image 的相机坐标系投影到世界坐标系。我们想要的是，将src的特征投影到ref的feature plane 上面。通过，src_projection左乘ref_projection的逆得到先将src投射到世界坐标系，然后再讲它们从世界坐标系中投射到ref plane上。

首先使用torch.meshfgrid这个函数来初始化点云。这个点之后xy两个方向，我们之后继续将生成的点的Z轴的值初始化成1。然后初始化，depth volume. 创建一个深度网格。

其实上面三个图片的代码是在实现一下这个公式：

然后使用src_feature 在这个网格中进行采样。

采样得到的特征的shape是（1,32，192，296，400），大小和特征图大小一致，只是多了一个用来表示深度范围的维度。因为mvs 它不是要计算精确的depth，而是一个depth probability。这个应该对应的是原图中画圈的地方。

然后对得到的feature volume 之后, 把 feature volume 合成一个大的volume

下一步需要计算cost regularization，它使用的是一个类似于U-net的网络啊

将得到的cost_volume 做一个 softmax得到 probability volume ,然后用回归深度。

最后的refinement 网络就是一个很简单的小网络。