论文阅读-Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching本文要解决的问题是物体边缘区域的深度值预测问题。 给定校准的立体图像对,立体匹配的目的是为左图像中的每个像素找到右图像中对应的像素。目前不管是基于相关体还是成本体的网络,最终都会输出大小为 D × H × W D×H×W D×H×W 的分布体,其中 D D D 是视差搜索的最大范围, H H H 和 W W W 分别是输入图像的高度和宽度。然后沿着视差维度应用 Softmax 算子来标准化每个像素的概率分布 p ( ⋅ ) p(·) p(⋅)。最后,通过加权求和操作来估计得到的视差 d ^ \hat{d}