双目深度估计

论文阅读-FoundationStereo由于训练数据集的激增和深度神经网络架构的进步，最近的立体匹配算法可以取得惊人的结果，几乎使最具挑战性的基准测试饱和。然而，对目标域的数据集进行微调仍然是获得有竞争力的结果的首选方法。鉴于通过scaling law在计算机视觉中的其他问题上表现出的零样本泛化能力，是什么阻止了立体匹配算法实现类似的泛化水平？作者认为，无法实现零样本泛化能力，要么是网络架构的结构不足，要么是训练数据贫乏，或者两者兼而有之。 FoundationStereo从网络结构和数据集两个方面进行创新，得到了零样本泛化能力极强的立体匹配模

论文阅读-Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching本文要解决的问题是物体边缘区域的深度值预测问题。给定校准的立体图像对，立体匹配的目的是为左图像中的每个像素找到右图像中对应的像素。目前不管是基于相关体还是成本体的网络，最终都会输出大小为 D × H × W D×H×W D×H×W 的分布体，其中 D D D 是视差搜索的最大范围， H H H 和 W W W 分别是输入图像的高度和宽度。然后沿着视差维度应用 Softmax 算子来标准化每个像素的概率分布 p ( ⋅ ) p(·) p(⋅)。最后，通过加权求和操作来估计得到的视差 d ^ \hat{d}

论文阅读-Correlate and Excite在IGEV中构建几何编码体 C G C_G CG时用到了本文将要描述的CoEx，IGEV中没有说明为什么要这样做，本文就是对代价体激励这部分内容进行说明。基于3D卷积的立体匹配算法通常计算左右输入图像之间的特征互相关或将左右图的特征直接拼接来构建代价体。我们这里将前者称为相关体，后者称为成本体，两者统称为代价体。相关体将输入左右图像的特征 H × W × C H \times W \times C H×W×C转变为左右图的余弦相似度特征 H × W × D H \times W \times D H×

论文阅读-SelectiveStereo本文主要结合代码对Selective的创新点进行针对性讲解，相关的背景知识可以参考我写的另两篇文章论文阅读-RaftStereo和论文阅读-IGEV。 SelectiveStereo的创新点总结来说就只有一项，在RaftStereo和IGEV的基础上，提出了分别提取图像高频信息和低频信息并融合的迭代算子SRU(Selective Recurrent Unit)，另一个Contextual Spatial Attention(CSA)模块是为其服务的。 SelectiveStereo对RaftStereo和

人类发明了工具

【机器人-深度估计】双目深度估计原理解析两个相机拍摄同一场景，形成左图 I L I_L IL 和右图 I R I_R IR，若场景中某点 P P P 在左图和右图的投影点分别为 p L p_L pL 和 p R p_R pR，它们之间的水平距离就是视差 d d d。

UE5制作视差图双目深度估计开源数据集很多都是用UE制作的，那么我们自己能否通过UE制作自己想要的场景的数据集呢。最近花了点时间研究了一下，分享给需要的小伙伴。

我是有底线的