立体匹配--深度学习方法综述（1）

文章目录

论文笔记终极版
[1 摘要与总体观点（Paper core）](#1 摘要与总体观点（Paper core）)
[2 数据集综述（Datasets）](#2 数据集综述（Datasets）)
[3 在传统 pipeline 中引入学习（Section 3）------ 逐小节详述](#3 在传统 pipeline 中引入学习（Section 3）—— 逐小节详述)
- [3.1 Matching Cost（Matching cost learning）](#3.1 Matching Cost（Matching cost learning）)
- [3.2 Optimization（Cost optimization / Aggregation / SGM enhancements）](#3.2 Optimization（Cost optimization / Aggregation / SGM enhancements）)
- [3.3 Refinement（Disparity refinement）](#3.3 Refinement（Disparity refinement）)
- [3.4 小结：Pipeline-level Learning 的实验观察](#3.4 小结：Pipeline-level Learning 的实验观察)
[4 端到端立体网络（Section 4）------ 2D vs 3D 与代表模型（详述）](#4 端到端立体网络（Section 4）—— 2D vs 3D 与代表模型（详述）)
- [4.1 架构归类（Taxonomy）](#4.1 架构归类（Taxonomy）)
- [4.2 2D 架构（代表模型）](#4.2 2D 架构（代表模型）)
- [4.3 3D 架构（代表模型）](#4.3 3D 架构（代表模型）)
- [4.4 实验比较（表 3 / 表 4 的要点）](#4.4 实验比较（表 3 / 表 4 的要点）)
[5 置信度估计（Section 5）--- 详尽解读](#5 置信度估计（Section 5）— 详尽解读)
- [5.1 概述](#5.1 概述)
- [5.2 视差 / 图像域方法（Disparity/Image domain）](#5.2 视差 / 图像域方法（Disparity/Image domain）)
- [5.3 基于代价体的方法（Cost volume domain）](#5.3 基于代价体的方法（Cost volume domain）)
- [5.4 实验比较与结论](#5.4 实验比较与结论)
[6 域偏移：挑战与解决方案（Section 6）](#6 域偏移：挑战与解决方案（Section 6）)
- [6.1 问题的提出](#6.1 问题的提出)
- [6.2 方法分类](#6.2 方法分类)
- - [6.2.1 图像合成与域迁移（Image synthesis / domain transfer）](#6.2.1 图像合成与域迁移（Image synthesis / domain transfer）)
  - [6.2.2 自监督 / 自适应（Self-supervised adaptation）](#6.2.2 自监督 / 自适应（Self-supervised adaptation）)
  - [6.2.3 Guided deep learning（引导式深度学习）](#6.2.3 Guided deep learning（引导式深度学习）)
- [6.3 论文观点](#6.3 论文观点)
[7 单目深度估计通过立体监督（Section 7）](#7 单目深度估计通过立体监督（Section 7）)
- [7.1 基本思路（View synthesis / Photometric reconstruction）](#7.1 基本思路（View synthesis / Photometric reconstruction）)
- [7.2 代表方法（paper 逐条）](#7.2 代表方法（paper 逐条）)
- [7.3 单目方法的实验观察](#7.3 单目方法的实验观察)
[8 论文的讨论、结论与未来方向（Sections 8-9）](#8 论文的讨论、结论与未来方向（Sections 8-9）)
[9 全文方法索引（按论文大致出现顺序，便于查阅）](#9 全文方法索引（按论文大致出现顺序，便于查阅）)
[10 附录：图表、树状图与思维导图](#10 附录：图表、树状图与思维导图)
- [10.1 论文全局逻辑思维导图](#10.1 论文全局逻辑思维导图)
- [10.2 论文全部网络竖版树（ASCII）](#10.2 论文全部网络竖版树（ASCII）)
[11 References & Key Papers（按出现顺序精简）](#11 References & Key Papers（按出现顺序精简）)

论文笔记终极版

On the Synergies between Machine Learning and Binocular Stereo for Depth Estimation from Images

作者：Poggi et al., 2021（综述）

文中总结了2021年以前的立体匹配深度学习方法。

1 摘要与总体观点（Paper core）

Poggi 等人的综述强调：机器学习（尤其深度学习）与双目立体视觉之间存在双向协同关系 。在过去十年里，深度学习既通过替换或增强传统立体匹配 pipeline 的步骤（matching cost、aggregation、优化、refinement）来提升 stereo 性能，又逐步发展为端到端的 2D / 3D 网络结构，显著推动精度提升。与此同时，立体几何也被反向利用为单目深度估计的自监督或伪标签来源（view synthesis、proxy labels、distillation），促成了单目深度估计的快速发展。论文同时指出两个重要挑战：域偏移（synthetic → real）与高分辨率图像的适用性，并讨论多种适应与引导策略。

2 数据集综述（Datasets）

论文列举并讨论了用于 stereo / depth 的主流基准与数据来源，说明了各自的特点、优势与限制：

Freiburg SceneFlow（含 FlyingThings3D, Monkaa, Driving）：大规模合成数据集，分辨率适中（540×960），Dense ground truth。几乎所有端到端网络都在该数据集上进行预训练以便收敛。优点：规模大、GT 密集；缺点：合成域与真实图像存在外观差异（域偏移问题）。
KITTI（2012 / 2015）：真实道路驾驶场景，广泛用于自动驾驶相关研究；KITTI 为 low-resolution（相对 Middlebury），并具有丰富的驾驶场景样本，适合用于 fine-tuning 与 leaderboard 比较。常用的 Eigen split（697 测试图 + 22600 训练）。
Middlebury 2014：高分辨率、室内复杂场景，极具挑战性（分辨率高，disparity 范围大），训练样本少，不太适合 end-to-end 在小样本上泛化学习。
ETH3D：混合室内/室外真实多视图数据集，提供高质量的 GT，且图像分辨率与内容在 KITTI 与 Middlebury 之间。
其他：MPI-Sintel（合成，常用于光流）、CARLA、ApolloScape、DrivingStereo、Oxford RobotCar、Waymo 等，这些数据集为自动驾驶或特定场景研究提供数据。

小结：SceneFlow 是端到端学习不可或缺的预训练数据，但检验模型泛化能力必须在 KITTI / Middlebury / ETH3D 等真实数据集上。

3 在传统 pipeline 中引入学习（Section 3）------ 逐小节详述

总体：早期研究通常并未放弃传统 pipeline，而是用学习模型（CNN / random forest 等）替换其中的关键模块（matching cost、aggregation、refinement）来提升鲁棒性与准确率。下面按论文章节逐项展开并补充要点与代表工作。

3.1 Matching Cost（Matching cost learning）

背景：matching cost 是 stereo 的核心部分，它衡量某一对像素（或 patch）是否对应同一 3D 点。传统方法（SAD、census、NCC）是基于像素/窗口的手工度量。学习方法的目标是训练更鲁棒、更判别的 matching function，从而提高 downstream aggregation 与优化的质量。

代表方法与技术要点（按论文及其引用的经典工作）：

MC-CNN (Zbontar & LeCun, 2016)：Siamese 网络提取左右 patch 的特征，然后通过 FC 层估计匹配分数。提出两种变体：MC-CNN-acrt（feature concatenation，需对每个 disparity 值重复前向）与 MC-CNN-fst（用内积代替 concat，只需一次前向）。MC-CNN 的 cost volume 常与 CBCA/SGM 等传统模块联合使用。MC-CNN 在当时显著改进了 matching cost 的质量，并成为评测 baseline。
DeepEmbed / Multi-scale embedding (Chen et al.)：学习 patch 的 multi-scale embedding（同时看小窗口和大窗口），在计算 similarity 时采用 dot-product，兼顾边界细节与纹理缺失区域的鲁棒性。
Content-CNN (Luo et al.)：把匹配视作一个多类分类问题（每个视差为一个类别），模型输出 over-disparity distribution 而非简单二分类的匹配或非匹配，这有助于获取更"校准"的匹配概率分布。
SDC / dilated conv / per-pixel pyramid pooling：这些方法通过增加感受野（dilated conv、pyramid pooling）或融合多尺度上下文来改善 patch 描述子在纹理匮乏或重复纹理区域的鲁棒性。
Weakly-supervised / hybrid methods (CBMV 等)：某些方法在纯监督不充分时采用弱监督（epipolar constraint、left-right consistency）或混合策略（hand-crafted features + learned classifier，如 CBMV 中用 random forest）来提高泛化能力。

训练 / 使用注意事项：

训练匹配网络的样本可以从少量带 GT 的图像中扩展出来（一个带标注像素可提供多视差样本）。因此，即使 GT 图像数量有限，也能生成大量训练样本用于 patch-level学习。
匹配网络得到的 cost volume 通常需要后续的聚合与优化（SGM 或 3D CNN 等），单独使用 matching cost 并不能直接解决所有问题（特别是多模态候选、遮挡等）。

论文中的定位与评述：Poggi 等在 Section 3.1 中强调 MC-CNN 的历史重要性，并把它作为后来大量工作对比的参考 baseline，同时指出后续方法更重视上下文与效率。

3.2 Optimization（Cost optimization / Aggregation / SGM enhancements）

背景：matching cost 本身只给出点对点相似度，实际 disparity 选择需要考虑邻域一致性、光滑性与边界保留等约束。SGM（Semi-Global Matching）自 2005 年以来广泛使用，其优雅的路径聚合策略仍是 baseline。许多学习方法的出发点并非抛弃 SGM，而是学习性地增强其内部参数或候选选择过程。

代表方法与技术要点：

SGM-based improvements (PBCP, O1, SGM-Net, SGM-Forest 等)：通过学习方式自适应调整 SGM 的惩罚项、路径权重或候选合并策略，从而在保持 SGM 高效与可解释的优点下增强其适应性。具体策略包括：基于像素置信度调整平滑惩罚、通过候选选择减小搜索空间、或使用学习模块为 scanline 加权。
Ground Control Points (GCP)：选出置信度很高的像素（GCP），把它们作为硬/软约束加入图优化（如 MRF），用少量高质量约束来提升整体 disparity 地图的稳定性。
Pruning / candidate selection：一些方法（如 DeepPruner）通过智能筛选代价体中的候选 disparity 来显著降低 3D cost volume 的规模并保持精度，属于 optimization 层面的效率提升方法。

论文观点：Poggi 等强调优化层面方法的价值在于结合学习的灵活性与传统方法的可解释性，尤其适用于在实际部署中对效率和可解释性有严格要求的情景。

背景：无论是传统 pipeline 输出还是端到端网络预测，初始视差图都会包含错误（遮挡、重复纹理、光照变化导致的错配等）。Refinement 模块的职责是修正这些错误，提升边界清晰度与整体准确度。

代表性策略与工作：

Residual / Iterative refinement（如 RecResNet, DRR）：把 refinement 作为残差学习问题，用一个小型网络学习从初始 disparity 到更准确 disparity 的残差。可迭代执行以逐步修正。
Detect-Replace-Refine (DRR)：先检测错误区域，再对其进行替换后精细化；该分解思想能让网络对错误类别进行更有针对性的修正。
LRCR (Left-Right Comparative Recurrent)：把左右一致性检测融入 refinement 中，用 recurrent 机制处理细化过程，能修正不一致导致的错误并抑制噪声。
Variational / model-based refinement (VN)：将 CNN 与传统变分优化相结合，利用手工先验（如 smoothness、gradient-aware terms）配合学习的 data-term 来提升结果稳定性。
Order-based / Occlusion-aware strategies (OSD, 3Net ideas)：通过识别 occlusion / specular regions 并使用多视角 fusion（3Net 用三帧互补减轻遮挡）来修复遮挡引起的错误。

论文结论：Refinement 类方法在 leaderboard（特别是 KITTI）上表现突出，且常作为工程中提升性能而非替代整个匹配流程的关键模块。

3.4 小结：Pipeline-level Learning 的实验观察

论文在表格中比较了使用 learning-based module 的方法在 KITTI / Middlebury 等基准上的表现，结论包括：

在 KITTI 上，基于学习的 matching cost（如 MC-CNN）+ 传统优化（SGM/CBCA）已经超过传统非学习方法；Refinement 模块（LRCR / DRR 等）进一步提升了最终 D1 误差指标。
在高分辨率、场景复杂的 Middlebury，端到端方法受分辨率与训练数据限制表现不及在 KITTI 上的优势，pipeline-level 的学习增强策略在某些情况下更稳健。

备注：具体数值与排名见论文表 1 / 表 2（PDF）。

4 端到端立体网络（Section 4）------ 2D vs 3D 与代表模型（详述）

Poggi 等将 end-to-end stereo 网络主要分为两大类：2D 架构（image-space networks） 与 3D 架构（explicit cost volume + 3D CNN）。下面逐类展开并列出论文中重点提及的工作与设计思想。

4.1 架构归类（Taxonomy）

2D networks：类似于 optical flow / monocular depth 的 encoder-decoder 架构，通常在 feature-space 或 image-space 操作，通过 correlation layer（或点乘）来构造相似性信息，最终回归 disparity。优点是计算与内存开销较低、易做实时化优化；缺点是缺少 explicit cost volume 的多模态候选信息，难以处理复杂 ambiguous 区域。
3D networks：explicit cost volume（height × width × disparity bins × channels）是其核心，用 3D CNN 在 cost volume 上做正则化以融合空间与 disparity 上的上下文。这类网络在精度上通常优于 2D 网络，但计算、内存开销大。

论文指出很多后续的"高性能"模型都是在 3D 架构之上做改进（PSMNet、GWCNet 等）。

4.2 2D 架构（代表模型）

DispNet / DispNetC / DispNet-CSS（Mayer et al. 等）:
- U-Net 风格 encoder-decoder。
- DispNetC 引入 correlation layer 来计算左右特征的相似性矩阵（类似 flow 的 cost volume 但在 2D 层面处理）。DispNet 系列为端到端研究提供了重要 baseline，训练于 SceneFlow 并在 KITTI 上 fine-tune。
StereoNet / Stereo matching families：多做轻量化设计以兼顾速度。
MADNet：模块化设计以支持在线自适应（Real-time self-adaptive），coarse-to-fine 的多尺度策略兼顾实时与一定程度精度。
HD3 / SegStereo / EdgeStereo / DSNet / SENSE：代表将不确定性估计、语义信息、边缘提示或多任务（semantic+disparity）融入 2D 架构以增强精度与鲁棒性的方法。

点评：2D network 的优势在于速度与易部署，但在具有复杂多模态匹配候选的区域（重复纹理、大视差）往往不及 3D cost volume 方法。

4.3 3D 架构（代表模型）

GC-Net (Kendall et al., 2017)：提出使用 correlation-based cost volume + 3D CNN 正则化，并用 soft-argmin 做 disparity 回归，极大推动了该方向的发展。GC-Net 的基本 pipeline 是：feature extraction → cost volume construction → 3D CNN regularization → disparity regression。
PSMNet (Chang & Chen, 2018)：在 GC-Net 的基础上引入 Spatial Pyramid Pooling（PSP）来获取多尺度上下文，并用 stacking 的 3D encoder-decoder 来增强 cost volume 的表达能力。PSMNet 成为许多 subsequent 的 baseline。
GWCNet (Guo et al.)：提出 group-wise correlation（GWC），把 feature channel 分组计算 correlation，从而降低 cost volume 的维度与计算量，同时保持或提升匹配质量。
GA-Net / ECA / CSPN / DeepPruner / PDSNet 等：这些工作在 cost volume 的构建、pruning、guided aggregation、空间传播等方面做出改进。例如：DeepPruner 借鉴 PatchMatch 的候选采样策略以显著压缩搜索空间并保持精度，CSPN 将空间传播网络用于深度/视差 refinement 等。
AnyNet / HSM / Sparse-to-dense approaches：目标是减小 3D CNN 的计算成本或提出混合 2D/3D 的方案（例如先粗略生成候选，再在细化阶段使用 3D 操作）。

实务提醒：3D cost volume 的分辨率与 disparity bin 数量直接影响内存开销；很多高效策略（group-wise / pruning / coarse-to-fine / sparse volume）旨在在可接受内存下得到接近 full-volume 的性能。

4.4 实验比较（表 3 / 表 4 的要点）

论文收集并比较了大量方法在 KITTI 2015、Middlebury 2014、ETH3D 的排行榜成绩（D1-bg / D1-fg / D1-all 等指标）和运行时间。关键观察：

在 KITTI 上，3D 架构通常优于 2D 架构（though faster 2D models exist）。CSPN、GWCNet、PSMNet、GC-Net 等在 leaderboard 上位列前茅。
在 Middlebury（高分辨率）上，端到端方法受限于分辨率与训练数据，很多方法不能直接在 full-res 图像上处理，EdgeStereo、HSM 等采用特殊设计才能应对高分辨率场景。
ETH3D 的低分辨率和异质图像内容使得一些端到端方法如 DispNet-CSS 在该基准上表现很好，但总体上，open challenges 仍与高分辨率与跨域泛化有关。

结论：3D cost volume + adequate global context 是当前提升精度的关键，但需要更好的高效化与跨域策略以便实用部署。

5 置信度估计（Section 5）--- 详尽解读

5.1 概述

置信度估计（confidence estimation）旨在评估每个像素预测视差的可靠性。它既可用于后处理（如过滤与融合），也能作为自适应训练的代理监督信号（例如 confidence-guided adaptation）。传统方法使用手工特征 + random forests；最近许多方法采用 CNN。论文将方法分成两大类：视差/图像域方法与基于代价体的方法。

5.2 视差 / 图像域方法（Disparity/Image domain）

这些方法通常不需要完整 cost volume，适用于对黑盒 stereo 算法或 end-to-end 方法输出做置信估计：

LFN (Late-Fusion Network)：对 image + disparity patch 提取特征并结合（late fusion），用 dilated conv 扩大感受野，从而在 patch 级别估计置信度。
LGC-Net (Local Global Confidence Network)：结合局部 patch cues 与全局 context 的双分支结构，小分支负责高频精度，大分支负责广域语义信息，两者融合提高置信估计效果。

5.3 基于代价体的方法（Cost volume domain）

当 cost volume 可用时（端到端 3D 网络或内部模块），它提供了比仅用 disparity 更丰富的线索，例如多峰分布、第二最小值间隔等，这些都能帮助判别某个 disparity 是否可靠。

Reflective Confidence (Shaked & Wolf)：在 cost optimization 前联合预测置信度；网络直接处理 matching costs 来预测置信度和 disparity。
Feature Augmentation / Unified Network / LAF-Net：这些方法把 cost volume、image features、disparity map 一起输入网络，设计 scale inference / spatial transformer 等子模块以输出更准确的置信度图。

5.4 实验比较与结论

论文引用了 [107] 的重新训练实验比较结果，结论包括：

增大感受野（larger receptive fields）通常有利于置信度估计。
利用 cost volume 信息通常带来额外增益，使 LAF-Net 在多个数据集上表现最好。
值得注意的是，即便在包含基于学习模块的传统 pipeline 上，置信度度量已经接近最优，但针对端到端网络的置信度研究相对较少，这为未来工作提供了空间。

6 域偏移：挑战与解决方案（Section 6）

6.1 问题的提出

端到端网络的训练常依赖合成数据（SceneFlow）来获得足够多的样本，使复杂网络能够收敛。然而合成图像与真实图像在噪声、光照、反射、饱和以及统计特性上存在显著差异，导致模型在真实场景上的性能下降（domain shift）。Poggi 等把应对方法分为三类：domain transfer（图像合成 / 域迁移）、self-supervised adaptation（离线或在线自适应）与 guided deep learning（外部稀疏提示如 LiDAR）。

6.2 方法分类

6.2.1 图像合成与域迁移（Image synthesis / domain transfer）

做法包括：把合成图像风格转换为更真实的图像（GAN-based 或基于风格迁移的方法），或在渲染阶段增加更多真实感以缩小 domain gap。

6.2.2 自监督 / 自适应（Self-supervised adaptation）

Offline adaptation：在部署前使用目标域的无标签图像对对预训练模型进行微调；常用技术包括 confidence-guided adaptation（使用传统 stereo + confidence 生成稀疏但可靠的 proxy labels）等。

Online adaptation ：在部署/推理中持续训练模型（例如 Open World Stereo、Real-Time Self-Adaptive deep stereo），能够在几百次迭代内快速适应新环境。MADNet 的策略是在推理时只更新网络的一部分以保证实时性（局部反向传播）。Learning to Adapt (L2A) 则使用元学习把 adaptation 的能力纳入训练目标，使网络更适合在线快速适应。

6.2.3 Guided deep learning（引导式深度学习）

利用外部稀疏深度（如 LiDAR）或其它先验（VO、语义）作为"hints"来调制网络特征与预测（Poggi 等人提出通过在深度值处施加 Gaussian centered modulation 来引导预测），在训练和测试阶段均可应用以缓解域偏移带来的偏差。

6.3 论文观点

Poggi 等认为，domain adaptation 与 guided learning 将是未来几年内发展方向之一。特别是在线自适应能让系统在部署时自动调整到新环境，是使模型实用化的关键技术。

7 单目深度估计通过立体监督（Section 7）

论文专门探讨如何把 stereo geometry 用作单目深度估计的自监督 / 监督信号。该研究方向在近几年爆发，基于 view synthesis 的自监督方法能在没有 depth GT 的情况下训练高质量单目深度网络。

7.1 基本思路（View synthesis / Photometric reconstruction）

训练时使用 stereo pair（或 monocular video），网络预测（inverse）depth，从而可以把左图像 warp 到右图像并用 photometric loss（L1 + SSIM）比较重构误差以训练网络。这一思想的关键论著是 Geometry to the Rescue (Garg et al., 2016)，随后 MonoDepth（Godard et al.）、Monodepth2（Godard et al. 更新版）等将该思路系统化并引入多项改进（左右 consistency、自动 masking、多尺度 photometric loss、flow / ego-motion 的联合估计等）。

7.2 代表方法（paper 逐条）

Geometry to the Rescue (Garg et al.)：提出最初的 view synthesis formulation。
MonoDepth (Godard et al.)：引入左右一致性约束、结合 SSIM 与 L1 的 photometric loss、后处理消除 occlusion artifacts。
Monodepth2：在 MonoDepth 的基础上加入自动遮挡掩码（auto mask）、多尺度 photometric supervision to full-res（upsampling supervision）、以及更强的训练策略，被认为是 self-supervised 单目深度的重要 baseline。
AsiANet：Autoencoders in Autoencoders，multi-scale autoencoder stacking，强调编解码器设计与 Inception-like pooling 以提升上采样质量。
3Net (Poggi et al.)：使用三帧训练策略以缓解遮挡问题：中间帧被左右两帧分别监督，得到的两套深度互为补偿。
SuperDepth / Sub-pixel layers：引入 sub-pixel convolution（像素级上采样）以实现 depth super-resolution，提高高分辨率下的深度质量。
MonoGAN / StrAT / CRF-DGAN：将 GAN 引入 view synthesis 或对抗训练框架以提高合成右视图的真实感，从而提升 photometric 损失的约束质量与最终深度效果。
Depth Hints / Refine and Distill / MonoResMatch：Depth Hints 使用 stereo 算法产生的外部深度提示作为 training hints；Refine & Distill 使用 teacher-student 循环与重构来提升 student 的性能；MonoResMatch 通过虚拟视图匹配和蒸馏来避免对合成数据的依赖。
PyDNet：轻量级的 pyramid 深度网络，旨在在 CPU / 嵌入式设备上运行，体现了单目深度向实用化部署的努力。

7.3 单目方法的实验观察

在 KITTI 上，采用 stereo supervision 的自监督方法通过合理的训练策略接近甚至达到监督方法的性能，尤其在结合 proxy labels、语义或 VO 先验时效果更好。
对于高分辨率或纹理稀疏区域，单目自监督仍然有挑战（由于 photometric loss ambiguity），Depth Hints 或半监督策略在此处表现优于纯 photometric supervision。

8 论文的讨论、结论与未来方向（Sections 8-9）

Poggi 等总结了四条主旨：

从手工 pipeline 到端到端网络的转变是影响研究走向的最关键事件；端到端 paradigm 现在成为主流。
传统 stereo 的许多设计（correlation layer、3D aggregation）并未被抛弃，而是继续影响现代网络设计。
端到端模型对大量真实 GT 的依赖是主要限制，因此自监督、domain adaptation 等方向非常重要。
Stereo geometry 成为单目深度估计的宝贵监督来源，极大降低了对真实标注数据的需求。

此外作者强调两个仍然主要的挑战：跨域泛化 与高分辨率图像的适配（Middlebury 的结果提示这些问题还远未解决）。

9 全文方法索引（按论文大致出现顺序，便于查阅）

Matching cost / pipeline methods : MC-CNN, Deep Embed, Content CNN, CBMV, DeepPruner-related methods, etc.
End-to-End 2D : DispNet, DispNetC, DispNet-CSS, StereoNet, MADNet, HD3, EdgeStereo, SegStereo, DSNet, SENSE。
End-to-End 3D : GC-Net, PSMNet, GWCNet, GA-Net, ECA, CSPN, DeepPruner, PDSNet, HSM, AnyNet。
Confidence : LFN, LGC-Net, Reflective Confidence, Unified Network, LAF-Net。
Domain adaptation / self-supervised adapt : Zoom-and-Learn, Open World Stereo, MADNet Adaptation, L2A (Learning to Adapt)。
Monocular via stereo supervision: Geometry to the Rescue, MonoDepth, Monodepth2, 3Net, SuperDepth, MonoGAN, StrAT, CRF-DGAN, Refine & Distill, Depth Hints, PyDNet, DVSO, EPC++ 等。

注意：该清单旨在覆盖论文中直接提及或重点讨论的网络 / 方法；部分最近出现的变体或紧随论文之后的新工作可能未列入。

10 附录：图表、树状图与思维导图

10.1 论文全局逻辑思维导图

Depth Estimation: ML + Stereo
Datasets
SceneFlow
KITTI
Middlebury
ETH3D
Pipeline Learning
Matching Cost
MC-CNN
DeepEmbed
ContentCNN
Optimization
SGM-based Learning
Refinement
DRR
RecResNet
End-to-End Stereo
2D Networks
DispNet
StereoNet
MADNet
3D Networks
GC-Net
PSMNet
GWCNet
Confidence
LFN
LGC-Net
LAF-Net
Domain Adaptation
Offline
Zoom-and-Learn
Online
Open World Stereo
MADNet Adaptation
Guided
Depth Hints
Monocular Depth via Stereo
View Synthesis
Geometry to the Rescue
MonoDepth
Monodepth2
GAN-based
MonoGAN
CRF-DGAN
Efficient
PyDNet

10.2 论文全部网络竖版树（ASCII）

复制代码

Depth Estimation Networks
│
├── Stereo Pipeline Learning
│   ├── Matching Cost
│   │   ├── MC-CNN
│   │   ├── DeepEmbed
│   │   └── ContentCNN
│   ├── Optimization / Aggregation
│   │   ├── SGM variants (PBCP, SGM-Net)
│   │   └── Ground Control Points (GCP)
│   └── Refinement
│       ├── DRR
│       ├── RecResNet
│       └── LRCR
│
├── End-to-End Stereo
│   ├── 2D Networks
│   │   ├── DispNet, DispNetC, DispNet-CSS
│   │   ├── StereoNet
│   │   └── MADNet
│   └── 3D Networks
│       ├── GC-Net
│       ├── PSMNet
│       ├── GWCNet
│       └── DeepPruner, PDSNet, HSM
│
├── Confidence Estimation
│   ├── LFN
│   ├── LGC-Net
│   └── LAF-Net, Unified Network
│
├── Domain Adaptation
│   ├── Zoom-and-Learn
│   ├── Open World Stereo
│   ├── MADNet Adaptation
│   └── Depth Hints
│
└── Monocular Depth via Stereo Supervision
    ├── Geometry to the Rescue
    ├── MonoDepth / Monodepth2
    ├── 3Net
    ├── SuperDepth
    ├── MonoGAN / StrAT / CRF-DGAN
    └── PyDNet, DVSO, EPC++

11 References & Key Papers（按出现顺序精简）

Poggi, M., et al., On the Synergies between Machine Learning and Binocular Stereo for Depth Estimation from Images, 2021. (survey)
Zbontar, J. & LeCun, Y., MC-CNN, 2016.
Kendall, A., et al., GC-Net, 2017.
Chang, J.-R., & Chen, Y.-S., PSMNet, 2018.
Guo, X., et al., GWCNet, 2019.
Godard, C., Mac Aodha, O., & Brostow, G., MonoDepth, 2017.
Godard, C., et al., Monodepth2, 2019.
Tonioni, A., et al., Real-time Self-adaptive deep stereo, ...