论文阅读:AdaBins: Depth Estimation using Adaptive Bins

Motivation

  • 信息的全局处理会帮助提高整体深度估计。
  • 提出的AdaBins预测的bin中心集中在较小的深度值附近,对于深度值范围更广的图像,分布广泛。
  • Fu et al. 发现将深度回归任务转化为分类任务可以提升效果,将深度范围分成固定数量的bins。本文则解决了原始方法的多个限制:
    1. 计算根据输入场景的特征动态变化的自适应箱。
    2. 分类方法导致深度值的离散化,导致视觉质量差,深度不连续明显,论文提出预测最终的深度值作为bin中心的线性组合。
    3. 以高分辨率全局计算信息,而不是主要是在低分辨率的瓶颈部分。

AdaBins design

  • 首先,我们采用一个适应性分箱策略把具体的深度区间 D = ( d m i n , d m a x ) D=(d_{min},d_{max}) D=(dmin,dmax)分成N bins。
  • 我们将最终深度预测为 bin 中心的线性组合,使模型能够估计平滑变化的深度值。
  • 当在空间更高分辨率的张量上使用注意力时,可以获得更好的结果。因此采用了这样的结构: Encoder, Decoder, and finally attention。
  • 由于内存限制,使用h=H/2,w=W/2的空间分辨率处理,最终的depth图像通过简单的bilinearly上采样到(H,W)。
  • AdaBins的第一个模块是miniViT.输出:1) 向量 b , 定义了它如何将深度区间D划分为输入图像。2)Range-Attention 图 R \mathcal{R} R,形状是 h × w × C h \times w \times C h×w×C, 包含了像素级深度计算信息。
  • Bin-widths: 使用MLP头和ReLU层输出N维(bin的数量)向量b' 。最后通过Softmax归一化b'
    b i = b i ′ + ϵ ∑ j = 1 N ( b j ′ + ϵ ) b_i = \frac{b'i + \epsilon}{\sum^N{j=1}(b'_j + \epsilon)} bi=∑j=1N(bj′+ϵ)bi′+ϵ
  • Range attention maps : Transformer中包含了更多的全局信息。来自转换器的output embedding (2,C+1)作用一组1x1的卷积核,并与解码器的特征卷积获得 R \mathcal{R} R。这相当于将pixel-wise 特征视为'keys', transformer output embedding相当于'queries'。
  • Hybrid regression :
    R \mathcal{R} R 通过 1 × 1 卷积层获得 N 个通道,然后通过 Softmax。每个像素每个通道的数值作为这个bin的概率,每个depth-bin-centers可以算为:
    c ( b i ) = d ( m i n ) + ( d m a x − d m i n ) ( b i / 2 + ∑ j = 1 i + 1 b j ) c(b_i) = d_(min) + (d_{max} - d_{min})(b_i/2 + \sum^{i+1}{j=1}b_j) c(bi)=d(min)+(dmax−dmin)(bi/2+∑j=1i+1bj)
    最后,对于每一个pixel, 最终的 d ~ \tilde{d} d~计算为线性组合 c ( b i ) c(b_i) c(bi),
    d ~ = ∑ k = 1 N c ( b k ) p k \tilde{d}= \sum^N
    {k=1}c(b_k)p_k d~=∑k=1Nc(bk)pk。

Loss function

  • Pixel-wise depth loss. 使用一个尺度不变损失 (SI) 的缩放版本:
  • g i = l o g d ~ i − l o g d i g_i = log \tilde{d}_i - log d_i gi=logd~i−logdi。
  • Bin-center density loss: 鼓励bin centers的分布与真实标签相同。我们将 bin 中心的集合表示为 c(b),将地面实况图像中所有深度值的集合表示为 X,并使用双向倒角损失 [9] 作为正则化器:

Reference

  1. 1\]FU H, GONG M, WANG C, et al. Deep Ordinal Regression Network for Monocular Depth Estimation\[C/OL\]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT. 2018. http://dx.doi.org/10.1109/cvpr.2018.00214. DOI:10.1109/cvpr.2018.00214.

相关推荐
QiZhang | UESTC7 小时前
《Attention is all you need》论文阅读与代码实战
论文阅读
STLearner11 小时前
AI论文速读 | 元认知监控赋能深度搜索:认知神经科学启发的分层优化框架
大数据·论文阅读·人工智能·python·深度学习·学习·机器学习
imbackneverdie2 天前
6个常用国自然课题项目查询网站,码住以备不时之需
论文阅读·人工智能·aigc·科研·国自然·ai工具·国家自然科学基金
蓝田生玉1232 天前
qwen2.5论文阅读笔记
论文阅读·笔记
SUNNY_SHUN2 天前
ICLR 2026 | Judo: 7B小模型工业缺陷问答超越GPT-4o,用对比学习+强化学习注入领域知识
论文阅读·人工智能·学习·视觉检测·github
sin°θ_陈3 天前
前馈式3D Gaussian Splatting 研究地图(总览篇):解构七大路线,梳理方法谱系,看懂关键分歧与未来趋势
论文阅读·深度学习·算法·3d·aigc·空间计算·3dgs
智算菩萨3 天前
【实战讲解】ChatGPT 5.4深度文献检索完全指南:提示词工程与学术实战策略
论文阅读·人工智能·gpt·搜索引擎·chatgpt·提示词·论文笔记
檐下翻书1733 天前
音乐产业版权管理与运营流程图表制作方法
论文阅读·信息可视化·毕业设计·流程图·论文笔记
森诺Alyson4 天前
前沿技术借鉴研讨-2026.3.26(解决虚假特征x2/混合专家对比学习框架)
论文阅读·人工智能·经验分享·深度学习·学习·论文笔记
森诺Alyson4 天前
前沿技术借鉴研讨-2026.3.19(睡眠分期/Agents模拟临床会诊/多模态抑郁症检测)
论文阅读·经验分享·深度学习·论文笔记·论文讨论