立体匹配--Monster(2025)

这篇文章也是将单目深度估计融合到立体匹配中,没有foundation stereo复杂的结构,使用了单目和双目两个分支互补,思想直观很简单,但是网络略显粗糙。

MonSter: Marry Monodepth to Stereo Unleashes Power 论文总结

文章目录

  • [MonSter: Marry Monodepth to Stereo Unleashes Power 论文总结](#MonSter: Marry Monodepth to Stereo Unleashes Power 论文总结)
    • 一句话总结
    • [0. 论文概述(Executive Summary)](#0. 论文概述(Executive Summary))
    • [1. 问题背景与动机](#1. 问题背景与动机)
    • [2. 相关工作与创新关联](#2. 相关工作与创新关联)
      • [2.1 前人工作综述](#2.1 前人工作综述)
      • [2.2 存在的问题与不足](#2.2 存在的问题与不足)
      • [2.3 本论文与前人工作的关系](#2.3 本论文与前人工作的关系)
    • [3. 贡献与核心创新点](#3. 贡献与核心创新点)
      • [3.1 创新点一:Stereo Guided Alignment(SGA)](#3.1 创新点一:Stereo Guided Alignment(SGA))
      • [3.2 创新点二:Mono Guided Refinement(MGR)](#3.2 创新点二:Mono Guided Refinement(MGR))
      • [3.3 创新点三:双分支互迭代架构](#3.3 创新点三:双分支互迭代架构)
    • [4. 方法与网络设计](#4. 方法与网络设计)
      • [4.1 整体网络架构概览](#4.1 整体网络架构概览)
        • [4.1.1 网络三大部分](#4.1.1 网络三大部分)
        • [4.1.2 信息流向图示(文字描述)](#4.1.2 信息流向图示(文字描述))
        • [4.1.3 各模块功能概述](#4.1.3 各模块功能概述)
      • [4.2 网络详细分析](#4.2 网络详细分析)
        • [4.2.1 全局尺度‑偏移对齐(Global Scale‑Shift Alignment)](#4.2.1 全局尺度‑偏移对齐(Global Scale‑Shift Alignment))
        • [4.2.2 Stereo Guided Alignment(SGA)详解](#4.2.2 Stereo Guided Alignment(SGA)详解)
        • [4.2.3 Mono Guided Refinement(MGR)详解](#4.2.3 Mono Guided Refinement(MGR)详解)
        • [4.2.4 损失函数与训练策略](#4.2.4 损失函数与训练策略)
    • [5. 实验结果](#5. 实验结果)
      • [5.1 数据集与评估指标](#5.1 数据集与评估指标)
      • [5.2 消融研究](#5.2 消融研究)
      • [5.3 性能对比](#5.3 性能对比)
      • [5.4 零样本泛化性能](#5.4 零样本泛化性能)
    • [6. 不足之处与未来工作](#6. 不足之处与未来工作)
    • [7. 总体评价](#7. 总体评价)

文章基本信息

  • 标题:MonSter: Marry Monodepth to Stereo Unleashes Power
  • 作者:Junda Cheng, Longliang Liu, Gangwei Xu, Xianqi Wang, Zhaoxing Zhang, Xin Yang (华中科技大学), 等 (Autel Robotics, Intel Labs)
  • 年份:2025
  • 会议/期刊: CVPR

一句话总结

MonSter 提出了一种双分支迭代互增强 框架,将单目深度估计(Monocular Depth Estimation)和立体匹配(Stereo Matching)深度融合,通过 SGA(Stereo Guided Alignment)MGR(Mono Guided Refinement) 模块,用立体匹配恢复单目深度的像素级尺度和偏移,再用精细化的单目深度引导立体匹配处理病态区域(反光、无纹理、细结构、远距离),在五大公开榜单上均取得第一名,零样本泛化能力显著超越现有方法。

0. 论文概述(Executive Summary)

立体匹配通过左右图像对应关系恢复深度,但在遮挡(occlusion)、无纹理区域(textureless areas)、重复/细薄结构(repetitive/thin structures)、远距离物体(distant objects) 等缺乏匹配线索的区域表现不佳。现有方法主要通过增强特征表示或注意力机制来改进匹配代价,但无法从根本上解决误匹配(mismatching) 问题。

与此相对,单目深度估计直接从单张图像恢复三维结构,不涉及匹配问题,但其输出是相对深度(relative depth) ,存在全局尺度和偏移歧义(scale and shift ambiguities),且即使经过全局对齐,仍存在显著的像素级误差(见图3)。

MonSter 的核心洞察是:将立体匹配任务解耦为"从相对深度恢复像素级尺度和偏移"的简化问题。为此,MonSter 设计了:

  • 单目分支:使用预训练的 DepthAnythingV2(冻结参数)提供丰富结构先验。
  • 立体分支:基于 IGEv 架构,共享 ViT 编码器特征。
  • 互优化模块:交替执行 SGA(用可靠立体视差校正单目视差的逐像素偏移)和 MGR(用精细化单目视差引导立体视差在病态区域的优化)。

通过多次迭代,单目深度从粗粒度的物体级结构演化为像素级几何,完全释放了立体匹配的潜力。

实验表明:MonSter 在 SceneFlow、KITTI 2012、KITTI 2015、Middlebury、ETH3D 五个榜单上均排名第一,在 ETH3D 的 Bad 1.0 指标上提升达 49.5%;零样本泛化性能全面领先(见表5);在反光区域、边缘/非边缘区域、远距离背景上均显著优于 SOTA。

1. 问题背景与动机

立体匹配的核心任务:给定一对已校正的立体图像 ( I L , I R ) (I_L, I_R) (IL,IR),估计视差图 D D D,进而转换为度量深度。深度学习方法主要分为两类:

  • 代价滤波法(cost filtering‑based):构建 3D/4D 代价体积,用 CNN 正则化。
  • 迭代优化法(iterative optimization‑based):构建全对相关体积,用 ConvGRU 迭代更新视差。

共同局限 :都依赖于左右图像间的显式对应关系。在以下病态区域(ill‑posed regions) 中,匹配线索不足:

  • 遮挡(occlusions)
  • 无纹理/低纹理区域(textureless / low‑texture areas)
  • 重复或细薄结构(repetitive / thin structures)
  • 远距离物体(distant objects,像素占比小)

单目深度估计则完全不受匹配问题困扰,但其输出是相对深度,存在尺度和偏移歧义。如图3所示,即使经过全局最小二乘对齐,单目深度与真实视差之间仍有巨大残差,无法直接像素级融合。

动机 :如何利用单目深度先验的结构性优势 ,同时克服其尺度/偏移歧义 ,并将其与立体匹配的精确几何有机结合,从而彻底解决病态区域的深度感知问题?

2. 相关工作与创新关联

2.1 前人工作综述

类别 代表方法 核心思想 不足
匹配增强 GwcNet, ACVNet, IGEV 改进代价体积表达力 / 几何编码 仍依赖匹配,病态区域无效
迭代优化 RAFT‑Stereo, CREStereo ConvGRU 相关体索引 同上
结构先验 EdgeStereo, SegStereo 边缘/语义线索 仅物体级先验,缺乏像素级几何
单目+立体 CLStereo, LoS 单目深度作为局部结构先验 未解决尺度/偏移歧义,可能引入噪声

2.2 存在的问题与不足

  • 现有方法本质上是匹配驱动,无法跳出"寻找对应点"的框架。
  • 单目深度先验的使用往往是单向且粗粒度(全局对齐后直接融合),导致在复杂曲面(斜平面、弯曲表面)上引入噪声。
  • 缺乏自适应、像素级的校正机制来消除单目深度的尺度和偏移歧义。

2.3 本论文与前人工作的关系

  • 继承:立体分支基于 IGEV 37 的几何编码体积和 ConvGRU 迭代结构。
  • 改进
    • 引入冻结的 ViT 编码器(DINOv2)作为共享特征提取器,提供丰富上下文。
    • 提出双向互优化:SGA 用立体视差校正单目视差的逐像素偏移;MGR 用校正后的单目视差引导立体视差。
    • 实现从物体级粗结构到像素级精细几何的演化
  • 本质差异 :不再将单目深度视为"额外线索",而是将立体匹配任务重新定义为"从相对深度恢复尺度和偏移",从而绕过匹配困难。

3. 贡献与核心创新点

3.1 创新点一:Stereo Guided Alignment(SGA)

  • 目标 :解决单目深度的逐像素尺度/偏移歧义
  • 方法 :利用立体分支中高置信度的匹配区域 ,通过条件引导的 ConvGRU 更新单目视差的残差偏移 Δ t \Delta t Δt。
  • 关键 :避免将不可靠的立体匹配噪声引入单目分支,通过流残差图(flow residual map) 计算置信度,自适应选择可靠立体线索。

3.2 创新点二:Mono Guided Refinement(MGR)

  • 目标:用精细化后的单目视差引导立体匹配,改善病态区域。
  • 方法 :对称于 SGA,将单目视差作为条件输入另一个 ConvGRU,同时融合立体分支自身的几何特征,输出残差视差 Δ d \Delta d Δd 更新立体视差。
  • 关键:单目视差在远距离、反光、无纹理区域仍然可靠,可有效补充立体匹配的不足。

3.3 创新点三:双分支互迭代架构

  • 流程 :全局尺度‑偏移对齐 → 交替执行 SGA 和 MGR 共 N 2 N_2 N2 轮。
  • 效果:单目深度从粗到精,立体匹配从易到难,两者相互促进,最终输出高精度立体视差。
  • 共享特征:ViT 编码器同时服务于单目和立体分支,冻结参数以保留泛化能力。

4. 方法与网络设计

4.1 整体网络架构概览

4.1.1 网络三大部分
  1. 单目深度分支(Monocular Depth Branch)
    • 使用 DepthAnythingV2 45(ViT‑large + DPT 解码器),输出相对深度 D M \mathcal{D}_M DM。
    • 参数冻结,不参与训练,保证泛化能力。
  2. 立体匹配分支(Stereo Matching Branch)
    • 基于 IGEv 37,但特征提取器改为共享的 ViT 编码器 + 特征转移网络(2D 卷积金字塔)。
    • 生成多尺度特征 F = { F 0 , F 1 , F 2 , F 3 } \mathcal{F} = \{F_0, F_1, F_2, F_3\} F={F0,F1,F2,F3},构建几何编码体积(Geometry Encoding Volume),ConvGRU 迭代 N 1 N_1 N1 次得到初始视差 D S 0 \mathcal{D}_S^0 DS0。
  3. 互优化模块(Mutual Refinement Module)
    • 包含 SGAMGR ,交替执行 N 2 N_2 N2 轮,每轮更新一次单目视差和立体视差。
4.1.2 信息流向图示(文字描述)
复制代码
左图 I_L + 右图 I_R
       │
       ├──→ 共享 ViT 编码器 (DINOv2,冻结)
       │         │
       │         ├──→ 单目分支:DPT 解码器 → 相对深度 D_M
       │         │
       │         └──→ 特征转移网络 → 金字塔特征 F
       │                        │
       │                        └──→ 立体分支:几何编码体积 + ConvGRU (N1 次)
       │                                          │
       │                                          ↓
       │                                    初始视差 D_S^0
       │
       └──→ 全局尺度‑偏移对齐 (公式1) → 单目视差 D_M^0
                │
                ↓
       ┌─────────────────────────────┐
       │  迭代 j = 0..N2-1:           │
       │   SGA: D_M^{j} → D_M^{j+1}   │
       │   MGR: D_S^{j} → D_S^{j+1}   │
       └─────────────────────────────┘
                │
                ↓
          最终立体视差 D_S^{N2} (输出)
4.1.3 各模块功能概述
模块 输入 输出 功能
全局对齐 相对深度 D M D_M DM,初始视差 D S 0 D_S^0 DS0 单目视差 D M 0 D_M^0 DM0 最小二乘求全局尺度 s G s_G sG 和偏移 t G t_G tG
SGA D M j , D S j D_M^j, D_S^j DMj,DSj,几何特征 G S j G_S^j GSj,流残差 F S j F_S^j FSj 更新的 D M j + 1 D_M^{j+1} DMj+1 用可靠立体线索校正单目视差的逐像素偏移
MGR D M j , D S j D_M^{j}, D_S^{j} DMj,DSj,双边的几何和流特征 更新的 D S j + 1 D_S^{j+1} DSj+1 用精细单目视差引导立体视差在病态区域的优化

4.2 网络详细分析

4.2.1 全局尺度‑偏移对齐(Global Scale‑Shift Alignment)

目的 :将单目相对深度 D M \mathcal{D}_M DM 转化为与立体视差 D S 0 D_S^0 DS0 粗略对齐的单目视差 D M 0 D_M^0 DM0。

方法 :在筛选后的像素集合 Ω \Omega Ω 上求解最小二乘问题:

s G , t G = arg ⁡ min ⁡ s G , t G ∑ i ∈ Ω ( s G D M ( i ) + t G − D S 0 ( i ) ) 2 D M 0 = s G D M + t G ( 1 ) \begin{aligned} s_G, t_G &= \arg\min_{s_G, t_G} \sum_{i \in \Omega} \left( s_G \mathcal{D}_M(i) + t_G - \mathcal{D}_S^0(i) \right)^2 \\ D_M^0 &= s_G \mathcal{D}_M + t_G \end{aligned} \quad (1) sG,tGDM0=argsG,tGmini∈Ω∑(sGDM(i)+tG−DS0(i))2=sGDM+tG(1)

其中 Ω \Omega Ω 定义为视差值从小到大排序后 20% 到 90% 之间的像素区域,用于排除天空、极远距离和近处异常值。

4.2.2 Stereo Guided Alignment(SGA)详解

目标 :在每一轮互优化中,利用高置信度的立体匹配线索 ,为单目视差预测一个逐像素残差偏移 Δ t \Delta t Δt,从而校正局部尺度/偏移误差。

步骤

  1. 计算立体流残差图(置信度指标):

F S j ( x , y ) = ∥ F S L ( x , y ) − F S R ( x − D S j , y ) ∥ 1 ( 2 ) \mathbf{F}_S^j(x,y) = \left\| F_S^L(x,y) - F_S^R(x - D_S^j, y) \right\|_1 \quad (2) FSj(x,y)= FSL(x,y)−FSR(x−DSj,y) 1(2)

  • F S L , F S R F_S^L, F_S^R FSL,FSR:左右图像在 1/4 分辨率下的特征。
  • 残差越小,表示该像素的立体匹配越可靠。
  1. 构建立体条件特征

x S j = E n g ( \[ G S j , F S j , D S j ) ,    E n d ( D M j ) ,    D M j ] ( 3 ) x_S^j = \left \\mathrm{En}_g(\[G_S\^j, F_S\^j, D_S\^j),\; \mathrm{En}_d(D_M^j),\; D_M^j \right] \quad (3) xSj=Eng(\[GSj,FSj,DSj),End(DMj),DMj](3)

  • G S j G_S^j GSj:用当前立体视差从几何编码体积索引得到的几何特征。
  • E n g , E n d \mathrm{En}_g, \mathrm{En}_d Eng,End:两个卷积层,用于特征编码。
  1. 条件引导的 ConvGRU 更新(公式 4):

z j = σ ( C o n v ( h M j − 1 , x S j , W z ) + c z ) r j = σ ( C o n v ( h M j − 1 , x S j , W r ) + c r ) h ~ M j = tanh ⁡ ( C o n v ( r j ⊙ h M j − 1 , x S j , W h ) + c h ) h M j = ( 1 − z j ) ⊙ h M j − 1 + z j ⊙ h ~ M j ( 4 ) \begin{aligned} z^j &= \sigma\left( \mathrm{Conv}(h_M\^{j-1}, x_S\^j, W_z) + c_z \right) \\ r^j &= \sigma\left( \mathrm{Conv}(h_M\^{j-1}, x_S\^j, W_r) + c_r \right) \\ \tilde{h}_M^j &= \tanh\left( \mathrm{Conv}(r\^j \\odot h_M\^{j-1}, x_S\^j, W_h) + c_h \right) \\ h_M^j &= (1 - z^j) \odot h_M^{j-1} + z^j \odot \tilde{h}_M^j \end{aligned} \quad (4) zjrjh~MjhMj=σ(Conv(hMj−1,xSj,Wz)+cz)=σ(Conv(hMj−1,xSj,Wr)+cr)=tanh(Conv(rj⊙hMj−1,xSj,Wh)+ch)=(1−zj)⊙hMj−1+zj⊙h~Mj(4)

  • 与标准 ConvGRU 一致,但输入条件 x S j x_S^j xSj 中融入了立体匹配的可靠信息。
  • c z , c r , c h c_z, c_r, c_h cz,cr,ch 为可学习的上下文特征。
  1. 解码残差偏移并更新单目视差

D M j + 1 = D M j + Δ t , Δ t = C o n v ( h M j ) ( 5 ) D_M^{j+1} = D_M^j + \Delta t, \quad \Delta t = \mathrm{Conv}(h_M^j) \quad (5) DMj+1=DMj+Δt,Δt=Conv(hMj)(5)

4.2.3 Mono Guided Refinement(MGR)详解

目标:利用 SGA 细化后的单目视差,改善立体视差在病态区域的精度。

步骤

  1. 计算单目流残差图(用单目视差做 warp):

F M j ( x , y ) = ∥ F S L ( x , y ) − F S R ( x − D M j , y ) ∥ 1 ( 6 ) \mathbf{F}_M^j(x,y) = \left\| F_S^L(x,y) - F_S^R(x - D_M^j, y) \right\|_1 \quad (6) FMj(x,y)= FSL(x,y)−FSR(x−DMj,y) 1(6)

  1. 构建双路条件特征(同时包含单目和立体信息):

x M j = E n g ( \[ G M j , F M j , D M j ) ,    E n d ( D M j ) ,    D M j , E n g ( G S j , F S j , D S j ) ,    E n d ( D S j ) ,    D S j ] ( 6 ) \begin{aligned} x_M^j = \&\\mathrm{En}_g(\[G_M\^j, \\mathbf{F}_M\^j, D_M\^j),\; \mathrm{En}_d(D_M^j),\; D_M^j,\\ &\mathrm{En}_g(G_S\^j, \\mathbf{F}_S\^j, D_S\^j),\; \mathrm{En}_d(D_S^j),\; D_S^j] \end{aligned} \quad (6) xMj=Eng(\[GMj,FMj,DMj),End(DMj),DMj,Eng(GSj,FSj,DSj),End(DSj),DSj](6)

  • G M j G_M^j GMj:用单目视差从几何编码体积索引得到的几何特征。
  1. 同样使用公式 (4) 的 ConvGRU ,但将条件替换为 x M j x_M^j xMj,更新立体分支的隐藏状态 h S j h_S^j hSj。

  2. 解码残差视差并更新立体视差

D S j + 1 = D S j + Δ d ( 5 相同形式 ) D_S^{j+1} = D_S^j + \Delta d \quad (5\ \text{相同形式}) DSj+1=DSj+Δd(5 相同形式)

4.2.4 损失函数与训练策略

总体损失

L = L S t e r e o + L M o n o \mathcal{L} = \mathcal{L}{Stereo} + \mathcal{L}{Mono} L=LStereo+LMono

  • 立体分支损失 L S t e r e o \mathcal{L}_{Stereo} LStereo:

L S t e r e o = ∑ i = 0 N 1 − 1 γ   N 1 + N 2 − i ∥ d i − d g t ∥ 1 + ∑ i = N 1 N 1 + N 2 − 1 γ   N 1 + N 2 − i ∥ D S   i − N 1 − d g t ∥ 1 ( 7 ) \begin{aligned} \mathcal{L}{Stereo} = &\sum{i=0}^{N_1-1} \gamma^{\,N_1+N_2-i} \| \mathbf{d}i - \mathbf{d}{gt} \|1 \\ &+ \sum{i=N_1}^{N_1+N_2-1} \gamma^{\,N_1+N_2-i} \| \mathbf{D}S^{\,i-N_1} - \mathbf{d}{gt} \|_1 \end{aligned} \quad (7) LStereo=i=0∑N1−1γN1+N2−i∥di−dgt∥1+i=N1∑N1+N2−1γN1+N2−i∥DSi−N1−dgt∥1(7)

  • 单目分支损失 L M o n o \mathcal{L}_{Mono} LMono:

L M o n o = ∑ i = N 1 N 1 + N 2 − 1 γ   N 1 + N 2 − i ∥ D M   i − N 1 − d g t ∥ 1 ( 7 ) \mathcal{L}{Mono} = \sum{i=N_1}^{N_1+N_2-1} \gamma^{\,N_1+N_2-i} \| \mathbf{D}M^{\,i-N_1} - \mathbf{d}{gt} \|_1 \quad (7) LMono=i=N1∑N1+N2−1γN1+N2−i∥DMi−N1−dgt∥1(7)

其中:

  • γ = 0.9 \gamma = 0.9 γ=0.9:指数权重,越靠后的迭代权重越高。
  • N 1 N_1 N1:初始立体迭代次数(默认 2)。
  • N 2 N_2 N2:互优化迭代次数(默认 2)。
  • d g t \mathbf{d}_{gt} dgt:视差真值。

训练策略

  • 优化器:AdamW,学习率 2e-4,one‑cycle 调度。
  • 批大小:8。
  • 预训练:先在 Scene Flow 上训练 200k 步。
  • 微调:在 ETH3D / Middlebury 上使用 BTS(Basic Training Set,包含多个数据集)进一步训练。
  • 单目分支完全冻结,仅训练立体分支、特征转移网络、SGA/MGR 模块。

5. 实验结果

5.1 数据集与评估指标

数据集 类型 主要指标
Scene Flow 合成 EPE (End Point Error, px)
KITTI 2012/2015 真实驾驶场景 D1‑all, Out‑N, 等
ETH3D 室内/室外多视角 Bad 1.0, Bad 2.0, RMSE
Middlebury 高分辨率立体 Bad 2.0, RMSE

5.2 消融研究

表6 (Scene Flow 测试集):逐步验证各模块有效性

模型 单目深度 融合方式 尺度/偏移校正 特征共享 EPE (px) >1px (%)
Baseline (IGEv) -- -- -- 0.47 5.21
Mono+Conv Conv 0.46 5.12
Mono+MGR MGR 0.43 4.96
Mono+MGR+Conv MGR+Conv 0.42 4.82
Mono+MGR+SGA MGR ✓ (SGA) 0.39 4.43
Full (MonSter) MGR ✓ (SGA) 0.37 4.25
  • MGR vs Conv:MGR 比简单卷积融合提升 6.52% EPE。
  • SGA:在 MGR 基础上加入 SGA 再提升 9.30% EPE 和 10.69% 1px 误差。
  • 特征共享:再提升 5.13% EPE。

表7 :MonSter 对多种单目深度模型的兼容性(DepthAnythingV2, V1, MiDaS 均优于基线),且仅需 4 次迭代(基线 IGEv 需 32 次)即可达到更高精度。

5.3 性能对比

五大榜单排名第一(截至论文提交时):

数据集 指标 MonSter 之前 SOTA 提升幅度
Scene Flow EPE 0.37 0.44 (Selective‑IGEV) 15.91%
ETH3D Bad 1.0 (NoC) 0.46 0.91 (LoS) 49.45%
Middlebury RMSE 6.71 7.26 (Selective‑IGEV) 7.58%
KITTI 2015 D1‑all (All) 1.33 1.59 (CREStereo) 16.57%
KITTI 2012 Out‑3 (All) 1.36 1.69 (NMRF‑Stereo) 19.26%

病态区域专项提升

  • 反光区域(KITTI 2012) :Out‑4(All) 从 4.38 (Selective‑IGEV) 降至 3.38(提升 30.16%)。
  • 边缘区域(Scene Flow) :EPE 从 2.23 (IGEv) 降至 1.91(提升 14.35%)。
  • 非边缘区域 :EPE 从 0.41 降至 0.31(提升 24.39%)。
  • 远距离背景(KITTI 2015 D1‑bg) :从 1.27 (IGEv) 降至 1.05(提升 18.12%)。

5.4 零样本泛化性能

仅 Scene Flow 训练,直接测试真实数据集

方法 KITTI‑12 (>3px) KITTI‑15 (>3px) Middlebury (>2px) ETH3D (>1px)
IGEv 4.84 5.51 6.23 3.62
MonSter 3.62 3.97 5.17 2.03

混合 3 个合成数据集训练后,泛化能力进一步提升(Middlebury 2.94 vs IGEv 3.95,ETH3D 1.21 vs 2.38)。

6. 不足之处与未来工作

  • 计算开销 :MonSter 总参数量 356.1M(其中单目分支 335.3M),推理时间 0.64s 比基线 IGEv (0.37s) 长。作者认为精度提升可接受,但未来可通过编码器量化或蒸馏减少开销。
  • 单目分支限制:目前使用固定的 DepthAnythingV2,虽然展示了兼容性,但未探索联合微调的可能性(冻结是为了保留泛化能力)。
  • 未来方向
    • 扩大仿真数据的规模和多样性,训练一个 立体基础模型(stereo foundation model)
    • 将 MonSter 应用于更多下游任务(自动驾驶、机器人导航、3D 重建)。

7. 总体评价

维度 评价
创新性 ★★★★★ 首次将立体匹配解耦为"单目深度 + 像素级尺度和偏移恢复",双向迭代互增强,思路新颖。
性能 ★★★★★ 五大榜单第一,提升幅度显著(最高 49.5%),零样本泛化能力极强。
实用性 ★★★★☆ 参数量较大,推理速度中等,但对精度要求高的场景(如自动驾驶)极具价值。
理论贡献 ★★★★☆ 揭示了单目深度与立体匹配的互补本质,为融合几何与先验提供了新范式。
可复现性 ★★★★★ 代码已开源,详细说明训练细节和超参数。

核心启示 :通过将立体匹配的任务重新定义为从相对深度恢复精确尺度和偏移,可以彻底绕过匹配歧义问题,充分发挥大规模预训练单目模型的潜力。MonSter 为后续"几何+先验"融合研究开辟了明确方向。

相关推荐
weixin_4684668515 小时前
PyTorch 深度学习框架核心能力与实战评测
人工智能·pytorch·深度学习·神经网络·计算机视觉·动态图·模型训练
青风971 天前
SDDGR:基于稳定扩散的深度生成重放,用于类增量对象检测(CVPR 2024)
网络·人工智能·深度学习·神经网络·计算机视觉
埃科光电2 天前
埃科光电2.5D成像系统,破解精密制造微缺陷检测难题
图像处理·计算机视觉·制造·相机·机器视觉
君为先-bey2 天前
LeMiCa——基于扩散的高效视频生成的词典序最小最大路径缓存
人工智能·深度学习·计算机视觉·扩散模型
热心不起来的市民小周2 天前
100种动物矩形框和分割数据集
人工智能·计算机视觉·目标跟踪
盼小辉丶2 天前
OpenCV-Python实战(24)——打造实时图像滤镜系统
人工智能·python·opencv·计算机视觉
白日做梦Q2 天前
Label Studio 安装与使用完整文档(可直接复制部署)
深度学习·yolo·计算机视觉
菩提树下的凡夫2 天前
基于Halcon深度图的曲面圆柱凹坑缺陷处理方法
人工智能·计算机视觉·3d
sali-tec2 天前
C# 基于OpenCv的视觉工作流-章78-KRT测量
图像处理·人工智能·数码相机·opencv·算法·计算机视觉