从光流到立体匹配:RAFT → RAFT-Stereo → CREStereo → IGEV-Stereo → Selective-Stereo 技术发展脉络总结
一、总体发展路线概览
这五篇论文构成了一条清晰的迭代优化立体匹配 技术发展路线。RAFT 首先在光流估计领域提出了基于全对相关体+循环迭代更新的范式;随后 RAFT-Stereo 将其迁移至立体匹配;CREStereo 进一步解决了实际场景中的高分辨率和非理想校正问题;IGEV-Stereo 融合了代价聚合与迭代优化两大范式的互补优势;Selective-Stereo 则从频率信息的自适应融合角度对迭代更新算子进行了通用性改进。
二、各方法详细分析
1. RAFT(ECCV 2020)
任务:光流估计(Optical Flow)
前人方法及其问题
| 前人方法 | 核心思路 | 存在的问题 |
|---|---|---|
| 传统变分方法(Horn-Schunck, TV-L1等) | 将光流建模为手工设计的能量最小化问题(数据项+正则项) | ① 依赖一阶Taylor近似,仅适用于小位移;② 采用粗到精(coarse-to-fine)**图像金字塔策略处理大位移,容易**遗漏小的快速运动目标 且难以从粗分辨率的错误中恢复 |
| 深度学习直接预测方法(FlowNet2, PWC-Net, LiteFlowNet, VCN等) | 端到端预测光流,多采用粗到精金字塔架构 | ① 各级迭代权重不共享 ,限制了迭代次数;② 粗到精策略导致训练迭代次数极多 (通常超过1M次);③ 泛化能力有限 |
| IRR(唯一的循环方法) | 以FlowNetS或PWC-Net作为循环单元 | ① FlowNetS版本参数量过大(38M),仅能迭代5次;② PWC-Net版本迭代次数受金字塔层数限制 |
提出的解决方法
RAFT 提出了三大核心设计:
- 全对相关体(All-Pairs Correlation Volumes) :对两帧图像特征计算所有像素对的内积,构建 H×W×H×WH \times W \times H \times WH×W×H×W 的 4D 相关体,并通过多尺度池化构建相关金字塔 C1,C2,C3,C4{C^1, C^2, C^3, C^4}C1,C2,C3,C4,同时捕获大位移和小位移信息。
- 单分辨率迭代更新 :始终在 1/8 分辨率上维护和更新单一高分辨率光流场(初始化为零),避免了粗到精策略的累积误差问题。
- 轻量级循环更新算子 :设计了一个仅 2.7M 参数 的基于 ConvGRU 的更新算子,通过相关体查找(Correlation Lookup)获取局部相关特征,结合上下文特征和流特征进行迭代更新。权重在所有迭代中共享(tied weights) ,允许在推理时运行 100+ 次迭代而不发散。
核心贡献
- 在 KITTI 上 F1-all 误差降至 5.10%(较最优下降 16%),Sintel 上 EPE 降至 2.855(较最优下降 30%)
- 仅用合成数据训练,KITTI 上 EPE 从 8.36 降至 5.04(泛化能力提升 40%)
- 训练迭代次数仅为其他方法的 1/10
2. RAFT-Stereo(3DV 2021)
任务:立体匹配(Stereo Matching)
前人方法及其问题
| 前人方法 | 核心思路 | 存在的问题 |
|---|---|---|
| 基于3D卷积的方法(GCNet, PSMNet, GwcNet, GA-Net等) | 构建4D代价体 → 3D卷积聚合 → soft argmin回归视差 | ① 3D卷积计算量和内存消耗巨大 ;② 难以应用于高分辨率图像(如Middlebury的百万像素图像);③ 需要特殊方法处理高分辨率 |
| HITNet | 基于tile的层级迭代方法 | 需要多个额外损失函数(tile角度、决策权重等),训练复杂 |
| DSMNet | 在GA-Net上加入归一化和非局部图滤波以提升泛化 | 仍然使用3D卷积,计算量大,分辨率受限 |
与RAFT的关系与改进
RAFT-Stereo 直接借鉴 RAFT 的光流估计框架,但针对立体匹配的特殊性进行了关键修改:
- 3D相关体替代4D相关体 :利用校正立体图像中对应点在同一水平线 上的约束,将 RAFT 的 H×W×H×WH \times W \times H \times WH×W×H×W 4D相关体简化为 H×W×WH \times W \times WH×W×W 的 3D相关体(仅计算同一高度上的像素相似性),大幅降低计算复杂度。
- 多级ConvGRU(Multi-level ConvGRU) :在 1/8、1/16、1/32 三个分辨率上维护隐状态,各级使用专用 GRU 更新并加入跨级连接,但最终仍输出单一高分辨率视差更新 。这一设计显著增强了信息在图像全局的传播能力,提高视差场的全局一致性。
- 全2D卷积架构 :完全避免3D卷积,仅用一次矩阵乘法构建轻量级代价体,可直接处理百万像素图像。
核心贡献
- Middlebury 排名第1,1px 误差较第二名降低 29%
- ETH3D 两视图排名第1(所有已发表方法中)
- 可配置为实时推理模式
- 当仅在合成数据上训练时,在 KITTI、ETH3D、Middlebury 上泛化能力优于所有其他方法
3. CREStereo(CVPR 2022)
任务:实用立体匹配(Practical Stereo Matching)
前人方法及其问题
| 前人方法 | 核心思路 | 存在的问题 |
|---|---|---|
| RAFT-Stereo | 全对相关+单分辨率迭代更新 | ① 全对相关 计算全局匹配,内存消耗大;② 单分辨率迭代在高分辨率图像 上感受野不足,难以恢复精细结构;③ 假设图像已完美校正,对非理想校正不鲁棒 |
| 基于3D卷积的方法 | 固定视差范围的4D代价体+3D聚合 | ① 搜索范围需要预设且远大于实际需要;② 计算量大,速度慢 |
| 已有合成数据集(SceneFlow等) | 提供训练数据 | ① 物体形状变化有限;② 视差/光流值分布受限;③ 对真实世界困难场景(无纹理、重复纹理、反射等)覆盖不足 |
提出的解决方法
CREStereo 针对"实用"场景的三大障碍------精细结构、非理想校正、困难场景------提出了三项创新:
- 级联循环网络(Cascaded Recurrent Network) :
- 层级化特征金字塔:在 1/16 → 1/8 → 1/4 三个分辨率级别上分别进行迭代更新,前一级的输出作为下一级的初始化
- 权重共享:所有级别的循环更新模块(RUM)共享权重
- 堆叠级联推理架构:推理时将输入图像构建为图像金字塔,分别喂入共享权重的特征提取网络,利用多级上下文信息,无需额外微调即可处理更高分辨率图像
- 自适应组相关层(Adaptive Group Correlation Layer, AGCL) :
- 2D-1D交替局部搜索:不再计算全对相关,仅在局部窗口内搜索,交替使用1D(水平方向)和2D(网格方向)搜索模式,能处理非水平方向的对应关系
- 可变形搜索窗口 :借鉴可变形卷积,学习额外偏移量 (dx,dy)(dx, dy)(dx,dy),使搜索窗口能自适应形变,更好应对遮挡和无纹理区域
- 组相关:将特征分组独立计算相关,增强表达能力
- 新合成数据集 :
- 利用Blender生成,特别关注精细结构 (树枝、镂空结构)、困难纹理 (重复纹理、反射表面)、宽视差分布
- 相比SceneFlow,在ETH3D和Middlebury上的泛化能力显著提升
核心贡献
- Middlebury 和 ETH3D 均排名第1
- Middlebury bad 2.0 指标较 RAFT-Stereo 提升 21.73%
- ETH3D bad 1.0 指标较此前最优提升 59.84%
- 在手机拍摄照片等真实场景中明显优于现有方法
4. IGEV-Stereo(CVPR 2023)
任务:立体匹配(Stereo Matching)
前人方法及其问题
| 前人方法 | 核心思路 | 存在的问题 |
|---|---|---|
| 基于代价聚合的方法(PSMNet, GwcNet, ACVNet, GANet等) | 3D CNN对代价体进行聚合和正则化 | ① 能编码非局部几何信息和上下文信息;② 但 3D卷积计算和内存开销巨大,难以应用于高分辨率图像 |
| 基于迭代优化的方法(RAFT-Stereo, CREStereo等) | 直接从全对相关体中迭代索引更新视差 | ① 全对相关缺乏非局部几何知识 ,在遮挡、无纹理、重复结构等病态区域 存在局部歧义;② RAFT-Stereo 初始视差为0,需要大量迭代才能收敛到较好结果 |
| 粗到精级联方法(CFNet, CasStereo等) | 逐步缩小视差范围 | 不可避免地在粗分辨率上产生累积误差 |
核心洞察
IGEV-Stereo 提出了一个关键论断:代价聚合方法和迭代优化方法具有互补优势。前者擅长编码非局部几何信息但计算量大,后者计算高效但缺乏全局信息。
提出的解决方法
- 几何编码体(Geometry Encoding Volume, GEV) :
- 构建组相关代价体后,使用一个极其轻量级的3D UNet(3层下采样+3层上采样,通道数仅16/32/48)对代价体进行聚合和正则化
- 引入引导式代价体激励(Guided Cost Volume Excitation),利用左图特征生成通道权重来增强代价体
- GEV 编码了场景的几何结构和上下文信息
- 组合几何编码体(Combined Geometry Encoding Volume, CGEV) :
- GEV 经过3D正则化网络后可能在边界和细小细节处过度平滑
- 将 GEV 与全对相关(APC)组合为 CGEV,兼具全局几何信息和局部匹配细节
- 每次迭代从 CGEV 中索引几何特征,为 ConvGRU 提供更全面的信息
- 准确的初始视差 :
- 通过 soft argmin 从 GEV 回归初始视差 d0d_0d0(而非RAFT-Stereo的全零初始化)
- 显著加速收敛:仅3次迭代(100ms)即可达到比 RAFT-Stereo 32次迭代(440ms,EPE 0.61)更好的效果(EPE 0.58)
核心贡献
- Scene Flow 上 EPE 达到 0.47(SOTA)
- KITTI 2015 排名第1(280+方法中);KITTI 2012 反射区域排名第1
- 在 Top 10 方法中推理速度最快
- 仅1次迭代即超过RAFT-Stereo 69.44%
5. Selective-Stereo(CVPR 2024)
任务:立体匹配(Stereo Matching)------迭代更新算子的通用改进
前人方法及其问题
| 前人方法 | 核心思路 | 存在的问题 |
|---|---|---|
| RAFT-Stereo | 多级ConvGRU迭代更新 | ConvGRU的感受野固定 ,无法同时捕获高频信息(边缘)和低频信息(平滑区域):① 在边缘处容易模糊 ;② 在无纹理区域容易产生误匹配 |
| IGEV-Stereo | CGEV + ConvGRU迭代 | 同样受限于GRU的固定感受野问题,难以自适应地根据图像区域选择合适的信息频率 |
| CREStereo | 级联循环+自适应相关 | 虽然通过层级化设计扩展了感受野,但迭代更新模块本身仍使用固定核的GRU |
| DLNR | 用LSTM替代GRU | 解耦了隐状态更新和视差预测,但未解决频率选择性问题 |
核心洞察
在迭代优化过程中,不同图像区域需要不同频率的信息:
- 边缘区域 需要高频信息(小感受野/小卷积核)来保持细节和锐利边缘
- 平滑/无纹理区域 需要低频信息(大感受野/大卷积核)来捕获全局结构
现有方法使用固定感受野的GRU,在迭代过程中不可避免地导致关键隐含视差信息丢失 和噪声信息增强。
提出的解决方法
- 选择性循环单元(Selective Recurrent Unit, SRU) :
- 使用多分支GRU 结构,每个分支具有不同大小的卷积核,代表不同感受野和不同频率的信息捕获能力
- 各分支的隐含信息不是简单相加,而是通过自适应融合进行加权组合
- 上下文空间注意力模块(Contextual Spatial Attention, CSA) :
- 从上下文信息中提取多级注意力图作为融合权重指导
- 包含两个子模块:
- 通道注意力增强(Channel Attention Enhancement, CAE):通过平均池化和最大池化 → 两层卷积 → sigmoid 生成通道权重,增强有用通道、抑制冗余通道
- 空间注意力提取器(Spatial Attention Extractor, SAE) :生成空间注意力图,在边缘区域赋予小核分支更大权重 ,在平滑区域赋予大核分支更大权重
- 注意力图使网络能自适应地根据不同图像区域选择合适频率的信息
- 通用性验证 :
- SRU 模块可以即插即用地替换 RAFT-Stereo 和 IGEV-Stereo 中的 GRU,分别称为 Selective-RAFT 和 Selective-IGEV
- 在不显著增加参数和时间开销的前提下,一致性地提升这些网络的性能
核心贡献
- KITTI 2012、KITTI 2015、ETH3D、Middlebury 四个榜单同时排名第1(所有已发表方法中)
- Selective-RAFT 在 KITTI 2015 D1-all 上超过 RAFT-Stereo 10.44%
- Selective-IGEV 在 KITTI 2012 反射区域 2-noc 上超过 IGEV-Stereo 7.68%
- Scene Flow 上 Selective-IGEV 达到 EPE 0.44(新SOTA)
三、技术演进脉络图
┌─────────────────────────────────────────────────────────────────────────────┐
│ 技术发展脉络 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ RAFT (ECCV 2020) │
│ ├─ 奠基:全对相关体 + ConvGRU迭代更新 + 单分辨率流场 │
│ ├─ 解决:粗到精策略的累积误差 & 训练效率 │
│ │ │
│ ▼ │
│ RAFT-Stereo (3DV 2021) │
│ ├─ 迁移:光流→立体匹配(4D→3D相关体) │
│ ├─ 创新:多级ConvGRU增强全局信息传播 │
│ ├─ 解决:3D卷积方法的高计算量 & 高分辨率适用性 │
│ │ │
│ ▼ │
│ CREStereo (CVPR 2022) │
│ ├─ 扩展:级联循环网络(多分辨率层级化更新) │
│ ├─ 创新:自适应组相关层(2D-1D交替+可变形+分组) │
│ ├─ 解决:① 高分辨率精细结构;② 非理想校正;③ 数据泛化 │
│ │ │
│ ▼ │
│ IGEV-Stereo (CVPR 2023) │
│ ├─ 融合:代价聚合 + 迭代优化两大范式 │
│ ├─ 创新:几何编码体(GEV) + 组合几何编码体(CGEV) + 非零初始视差 │
│ ├─ 解决:① 全对相关缺乏非局部几何知识;② 初始化差导致收敛慢 │
│ │ │
│ ▼ │
│ Selective-Stereo (CVPR 2024) │
│ ├─ 优化:自适应频率信息选择 │
│ ├─ 创新:选择性循环单元(SRU) + 上下文空间注意力(CSA) │
│ ├─ 解决:固定感受野无法同时捕获高/低频信息 │
│ └─ 通用:可即插即用于RAFT-Stereo、IGEV-Stereo等迭代方法 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
四、核心问题与解决方案对照表
| 论文 | 年份 | 面向的核心问题 | 核心解决方案 | 关键改进点 |
|---|---|---|---|---|
| RAFT | 2020 | 粗到精策略的累积误差;迭代方法参数量大、迭代次数受限 | 全对相关体 + 轻量级共享权重 ConvGRU 迭代更新 | 单分辨率更新、权重共享、100+次无发散迭代 |
| RAFT-Stereo | 2021 | 3D卷积计算量大;立体匹配与光流架构割裂 | 3D相关体 + 多级ConvGRU | 利用极线约束简化4D为3D;多级隐状态增强全局传播 |
| CREStereo | 2022 | 高分辨率精细结构丢失;非理想校正导致匹配失败;合成数据泛化差 | 级联循环网络 + 自适应组相关层 + 新合成数据集 | 层级化粗到精迭代更新;2D-1D交替+可变形搜索窗口 |
| IGEV-Stereo | 2023 | 全对相关缺乏非局部几何知识→病态区域歧义;初始零视差收敛慢 | GEV + CGEV + soft argmin初始视差 | 轻量3D CNN聚合提供全局几何;非零初始化加速收敛 |
| Selective-Stereo | 2024 | 固定感受野GRU无法同时捕获高频(边缘)和低频(纹理)信息 | 多分支SRU + CSA注意力自适应频率融合 | 不同区域自适应选择信息频率;即插即用的通用模块 |
五、总结
这条技术路线的演进呈现出清晰的**"发现问题→解决问题→暴露新问题"**的迭代模式:
- RAFT 打破了粗到精范式的统治,建立了"构建全对相关体 → 轻量级GRU迭代更新"的新范式
- RAFT-Stereo 将这一范式成功迁移到立体匹配,利用极线约束降低计算量,并通过多级GRU增强信息传播
- CREStereo 关注"实用性",针对高分辨率图像、非理想校正和困难场景提出了层级化级联和自适应相关的完整解决方案
- IGEV-Stereo 首次将代价聚合和迭代优化这两大"对立"范式进行了有机融合,以极小的额外代价获得了显著的精度和效率提升
- Selective-Stereo 从信息频率的角度审视了GRU更新算子的固有缺陷,提出了通用的自适应频率选择机制,同时在四个主流榜单上取得第一
整条路线的核心趋势是:从粗暴的全对计算,到利用几何先验高效聚合信息,再到自适应地选择和融合不同粒度的信息------不断逼近"用最少的计算获取最充分的匹配信息"这一理想目标。
以 RAFT 架构为主线的技术演进总结
一、RAFT 的三大核心模块
理解后续所有论文改进点的前提,是先明确 RAFT 的架构构成。RAFT 明确由三个主要部分组成:
┌─────────────────────────────────────────────────────────┐
│ RAFT 架构 │
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌─────────────┐ │
│ │ ① 特征提取 │ │ ② 相关体构建 │ │ ③ 迭代更新 │ │
│ │ Feature / │ → │ Correlation │ → │ Update │ │
│ │ Context │ │ Volume │ │ Operator │ │
│ │ Encoder │ │ (4D 全对) │ │ (ConvGRU) │ │
│ └──────────────┘ └──────────────┘ └─────────────┘ │
└─────────────────────────────────────────────────────────┘
| 模块 | 具体设计 | 作用 |
|---|---|---|
| ① 特征编码器 | Feature Encoder(两张图)+ Context Encoder(仅第一张图);6个残差块,输出 1/8 分辨率,256通道 | 提取逐像素特征;上下文特征用于初始化和注入GRU |
| ② 相关体 | 所有像素对的点积 → H×W×H×WH \times W \times H \times WH×W×H×W 的 4D 全对相关体;对后两维做 ×1/2/4/8 池化得到 4 层金字塔 | 计算像素间视觉相似度;多尺度捕获大/小位移 |
| ③ 迭代更新算子 | 权重共享的 ConvGRU;从相关金字塔中 Lookup 相关特征 + 当前流 + 上下文特征 → 预测 Δf\Delta fΔf;初始流场 f0=0f_0=0f0=0 | 模拟迭代优化过程;轻量(2.7M参数),可运行 100+ 次不发散 |
二、以 RAFT 三大模块为轴,五篇论文的改进全景
模块①:特征提取(Feature/Context Encoder)
| 论文 | 前人存在的问题 | 改进方式 |
|---|---|---|
| RAFT(基准) | --- | 双编码器:Feature Encoder(两图共享)+ Context Encoder(仅左图),输出 1/8 分辨率特征 |
| RAFT-Stereo | 沿用RAFT,无显著改动 | 与RAFT相同结构,提供两个选项:分离backbone(更高精度)或共享backbone(更快推理) |
| CREStereo | 单分辨率特征提取感受野有限,高分辨率图像下细节丢失 | 多尺度特征金字塔 :构建 1/16、1/8、1/4 三级特征金字塔,同时加入 Self-Attention + Cross-Attention 模块 在第一级聚合全局上下文;推理时喂入图像金字塔,利用多级上下文信息 |
| IGEV-Stereo | RAFT-Stereo 的 ResNet backbone 感受野有限 | 引入 MobileNetV2 (ImageNet预训练)下采样至 1/32 再用 skip-connection 上采样至 1/4,提供 i=4,8,16,32 的多尺度特征,用于代价体聚合引导 |
| Selective-Stereo | 与RAFT-Stereo保持一致,主要改动在模块③ | 与 RAFT-Stereo / IGEV-Stereo 的特征提取完全一致,不作修改 |
模块②:相关体构建(Correlation Volume)
这是各论文改动最显著的模块,也是最能体现其技术贡献的地方。
| 论文 | 前人存在的问题 | 改进方式 |
|---|---|---|
| RAFT(基准) | 传统方法:手工搜索范围或 warping 策略,无法同时覆盖大小位移 | 4D 全对相关体 :Cijkl=∑hg(I1)∗ijh⋅g(I2)∗klhC_{ijkl} = \sum_h g(I_1)*{ijh} \cdot g(I_2)*{klh}Cijkl=∑hg(I1)∗ijh⋅g(I2)∗klh,一次矩阵乘法完成;对后两维做多尺度池化,形成金字塔 C1,C2,C3,C4{C^1, C^2, C^3, C^4}C1,C2,C3,C4 |
| RAFT-Stereo | ① RAFT 的 4D 全对相关体计算量是 O(H2W2)O(H^2W^2)O(H2W2),过大;② 3D 卷积方法无法处理高分辨率图 | 利用极线约束压缩为 3D 相关体 :Cijk=∑hfijh⋅gikhC_{ijk} = \sum_h f_{ijh} \cdot g_{ikh}Cijk=∑hfijh⋅gikh(只计算同一行像素对),从 H×W×H×WH{\times}W{\times}H{\times}WH×W×H×W 降为 H×W×WH{\times}W{\times}WH×W×W;对最后一维做 1D 池化构建金字塔 |
| CREStereo | ① RAFT/RAFT-Stereo 的全对相关内存消耗大;② 假设完美校正,真实场景对应点不在同一极线上;③ 固定搜索窗口无法处理遮挡/无纹理 | 自适应组相关层(AGCL) :① 仅在局部窗口 内计算相关(非全对),节省内存;② 2D-1D 交替搜索 (1D 沿极线,2D 用 k×kk{\times}kk×k 网格),处理非理想校正;③ 可变形搜索窗口 :学习偏移 (dx,dy)(dx, dy)(dx,dy) 使搜索窗口自适应形变;④ 组相关:分组独立计算相关再拼接,增强表达力 |
| IGEV-Stereo | RAFT-Stereo 的全对相关(APC)缺乏非局部几何知识,在遮挡、无纹理、重复结构等病态区域产生局部歧义 | 几何编码体(GEV)+ 组合几何编码体(CGEV) :① 构建组相关代价体 CcorrC_{corr}Ccorr;② 用轻量级 3D UNet (三下采样+三上采样,通道仅16/32/48)对 CcorrC_{corr}Ccorr 聚合正则化,得到 GEV;③ 插入引导代价体激励 (左图特征→sigmoid→通道权重);④ GEV(含全局几何)与 APC(含局部细节)拼接为 CGEV,兼顾两者优点 |
| Selective-Stereo | 与 RAFT-Stereo / IGEV-Stereo 相关体构建完全一致,不作修改 | 相关体本身不变,改动体现在如何从相关体中获取信息并融合(模块③) |
模块③:迭代更新算子(Update Operator / GRU)
| 论文 | 前人存在的问题 | 改进方式 |
|---|---|---|
| RAFT(基准) | 之前迭代方法(FlowNet2, PWC-Net等):① 各迭代层权重不共享,迭代次数受限;② 参数量大(FlowNetS 38M);③ 粗到精策略有累积误差 | 轻量级权重共享 ConvGRU (2.7M参数);流场初始化为全零 ,始终在单一高分辨率(1/8)上更新;可运行 100+ 次不发散 |
| RAFT-Stereo | RAFT 的单级 GRU 感受野增长极慢,对大片无纹理区域缺乏全局信息 | 多级 ConvGRU(Multi-level GRU) :在 1/8、1/16、1/32 三个分辨率上同时维护隐状态 ,通过上下采样互相连接(cross-connected);Lookup 和视差更新仍由最高分辨率 GRU 完成;此外提出 Slow-Fast GRU(低分辨率 GRU 更新次数多,高分辨率少),推理提速 52% |
| CREStereo | 单分辨率迭代(如 RAFT-Stereo)感受野有限,难以同时保留高分辨率精细结构 | 级联循环网络(Cascaded Recurrent Network) :在 1/16→1/8→1/4 三级分辨率上依次迭代,前级输出作为后级初始化;所有级 RUM 权重共享;视差从全零初始化,但通过层级化从粗到精逐步精化 |
| IGEV-Stereo | RAFT-Stereo 初始视差 d0=0d_0=0d0=0,需要大量迭代才能收敛;APC 信息不足导致每次迭代效率低 | ① 非零初始化 :用 soft-argmin 从 GEV 直接回归初始视差 d0d_0d0,提供准确起点;② 每次迭代从 CGEV(含全局+局部信息)中 Lookup,而非纯 APC;③ 沿用 RAFT-Stereo 的三级 ConvGRU 结构 |
| Selective-Stereo | RAFT-Stereo 和 IGEV-Stereo 的 GRU 使用固定感受野卷积核,无法同时捕获高频(边缘)和低频(平滑区域)信息;迭代中高频信息逐渐丢失,低频信息主导 | 选择性循环单元(SRU) :用多分支 GRU (小核 1×11{\times}11×1 + 大核 3×33{\times}33×3)替换单一 GRU;引入 上下文空间注意力(CSA) 模块生成注意力图,在边缘区域赋予小核大权重(高频),在平滑区域赋予大核大权重(低频);最终融合公式:hk=A⊙hksmall+(1−A)⊙hklargeh_k = A \odot h_k^{small} + (1-A) \odot h_k^{large}hk=A⊙hksmall+(1−A)⊙hklarge |
三、综合演进全景图
RAFT 三大模块
│
├─ 特征提取(Encoder)
│ ├─ RAFT:Feature + Context Encoder,1/8分辨率
│ ├─ CREStereo:+多尺度金字塔 + Attention模块
│ └─ IGEV-Stereo:+MobileNetV2骨干,多尺度i={4,8,16,32}
│
├─ 相关体构建(Cost Volume) ← 改动最大
│ ├─ RAFT:4D全对 H×W×H×W(光流)
│ ├─ RAFT-Stereo:→ 3D全对 H×W×W(极线约束)
│ ├─ CREStereo:→ 局部AGCL(2D-1D+可变形+分组)
│ └─ IGEV-Stereo:→ GEV(3D UNet聚合)+ APC → CGEV
│
└─ 迭代更新算子(Update Operator)
├─ RAFT:单级ConvGRU,零初始化,权重共享
├─ RAFT-Stereo:→ 多级GRU(1/8+1/16+1/32),Slow-Fast
├─ CREStereo:→ 级联RUM(粗到精多分辨率迭代)
├─ IGEV-Stereo:→ 非零初始化d₀ + CGEV Lookup
└─ Selective-Stereo:→ SRU多分支GRU + CSA注意力自适应频率融合
(可即插即用于上述所有方法)
四、核心问题链:每一篇解决上一篇暴露的问题
RAFT
└─ 问题暴露:4D全对相关体 O(N²) 计算量大;迭代感受野增长慢
│
└─ RAFT-Stereo 解决:利用极线约束压缩3D;多级GRU扩大感受野
└─ 问题暴露:单分辨率迭代对高分辨率精细结构效果差;
│ 假设完美校正,真实场景失效
│
└─ CREStereo 解决:级联多分辨率迭代(粗到精);
│ 自适应局部相关处理非理想校正
└─ 问题暴露:全对/局部相关均缺乏非局部几何知识;
│ 初始零视差收敛慢,需大量迭代
│
└─ IGEV-Stereo 解决:GEV编码非局部几何 + CGEV融合局部细节;
│ GEV回归非零初始视差加速收敛
└─ 问题暴露:固定感受野GRU在迭代中无法自适应地
区分高频(边缘)和低频(平滑)信息
│
└─ Selective-Stereo 解决:SRU多分支自适应频率融合;
CSA注意力按区域动态加权
五、一句话归纳各论文的核心贡献
| 论文 | 一句话归纳 |
|---|---|
| RAFT | 用全对相关体 + 轻量级共享权重 ConvGRU 迭代,彻底取代粗到精范式 |
| RAFT-Stereo | 利用极线约束将4D压缩为3D,并用多级GRU解决单分辨率感受野不足 |
| CREStereo | 级联粗到精迭代 + 自适应局部相关,解决高分辨率和非理想校正问题 |
| IGEV-Stereo | 轻量3D CNN聚合引入非局部几何,与全对相关互补,并提供准确初始值 |
| Selective-Stereo | 多分支GRU + 注意力引导的自适应频率选择,通用性地解决固定感受野问题 |