单目深度估计重大突破:无需标签,精度超越 SOTA!西湖大学团队提出多教师蒸馏新方案

【导读】

单张RGB图像,也能重建出逼真的3D世界?

近日,西湖大学AGI实验室联合浙江工业大学等单位,提出了一种全新的多教师蒸馏算法,仅靠2万张无标签图片,就显著提升了单目深度估计的精度,刷新了现有SOTA!这一成果不仅降低了对标注数据的依赖,还让单目深度估计在更复杂的场景中表现得更强、更稳,真正为AI视觉感知打上"性价比"。>>更多资讯可加入CV技术群获取了解哦


一、什么是单目深度估计?为何重要?

单目深度估计指的是利用一张 RGB 图像预测场景中每个像素的深度信息,是当前计算机视觉领域中的重要任务。相比激光雷达或多摄像头系统,它具有成本低、部署简单的优势,在自动驾驶、AR/VR、机器人导航、三维建模、数字文物复原等领域应用广泛。

但同时,深度估计模型往往依赖大量带有真实深度信息的标注数据进行训练,这一过程耗时高、代价大。因此,如何在无标签或弱标签数据下提升模型性能,成为该领域的关键研究方向。


二、Distill Any Depth:打破依赖标签数据的限制

为了解决当前深度估计中对标签数据的高度依赖问题,研究团队提出了 Distill Any Depth 框架,核心包含以下两大技术创新:

跨上下文蒸馏 + 深度归一化优化

传统的深度估计蒸馏方法通常采用全局归一化策略 ,在对伪标签进行统一处理时可能引入噪声,掩盖局部细节

研究团队提出的方案结合了局部最小二乘归一化和全局信息 ,通过局部归一化保留细节信息,提升伪标签质量。在此基础上,引入了 "跨上下文蒸馏" 机制:

  • 共享上下文蒸馏: 教师与学生模型使用同一张图像。
  • 局部-全局蒸馏: 教师模型专注于局部区域,学生模型在整图上学习,并通过设计一致性损失强化细节与全局结构的融合

这种机制使得模型在细节预测上更精准 ,在整体结构理解上更稳定,有效缓解了伪标签蒸馏中的信息损失问题。

多教师协同蒸馏架构

团队进一步提出使用多教师模型进行蒸馏。每次训练时,系统从多个预训练的主流深度估计模型中(如 MiDaS v3.1、DepthAnything v2、Marigold 等)随机选择一个生成伪标签。

多模型协同带来的互补信息 ,使得学生模型能够学习到更全面的深度表达,增强了泛化能力和鲁棒性,尤其在面对不规则、复杂、低质量图像时依然表现出色。


三、实验验证:在多个数据集上刷新性能

该方法在包括 NYUv2、ScanNet(室内场景)和 KITTI、ETH3D、DIODE(户外场景)在内的多个公开数据集上进行了全面验证。

定量结果显示:

  • 模型在平均误差、相对误差等多个指标上均优于当前主流方法;
  • 学生模型在多个任务中甚至超过教师模型,展现出强大的学习能力。

定性结果也非常亮眼:

  • 在复杂图像中(如卡通线稿、发丝边缘、简笔画等),新方法生成的深度图细节更清晰,边缘更平滑,视觉层次更准确;
  • 在野外环境下模型预测更稳定,体现出极强的泛化能力。

四、应用前景广阔:从工业到内容创作全面受益

单目深度估计的进步,将极大促进以下领域的智能化升级:

  • 自动驾驶与机器人导航: 无需昂贵的雷达设备,依靠普通摄像头即可实现精确的环境建图与障碍检测;
  • AR/VR 与数字孪生: 快速构建高度贴近现实的 3D 空间,为沉浸式体验提供强大支持;
  • 影视与游戏制作: 基于单图像还原三维结构,提升建模效率与真实感;
  • 文化遗产保护: 非接触式地对文物进行三维重建,避免因传统测量手段带来的破坏;
  • 建筑与室内设计: 照片级建模,快速生成三维空间草图和装修布局预览。

总结与展望

Distill Any Depth 是对深度估计领域的重要补充,特别是在无标签学习和模型蒸馏方面提出了可复制、可推广的新方法。通过局部归一化、跨上下文蒸馏与多教师协同机制,显著提升了单目深度估计在各类场景中的表现,降低了实际部署门槛。

未来,随着该方法的进一步优化,单目深度估计有望在更多智能系统中发挥基础性作用,尤其是在资源受限、数据稀缺但对三维理解要求高的任务中,展现更强大的生命力。

论文链接:arxiv.org/abs/2502.19...

相关推荐
chao_78918 分钟前
二分查找篇——搜索旋转排序数组【LeetCode】一次二分查找
数据结构·python·算法·leetcode·二分查找
JNU freshman44 分钟前
计算机视觉速成 之 概述
人工智能·计算机视觉
lifallen1 小时前
Paimon 原子提交实现
java·大数据·数据结构·数据库·后端·算法
lixzest1 小时前
C++ Lambda 表达式详解
服务器·开发语言·c++·算法
EndingCoder1 小时前
搜索算法在前端的实践
前端·算法·性能优化·状态模式·搜索算法
丶小鱼丶1 小时前
链表算法之【合并两个有序链表】
java·算法·链表
HollowKnightZ1 小时前
目标姿态估计综述:Deep Learning-Based Object Pose Estimation: A Comprehensive Survey
人工智能·深度学习
不吃洋葱.2 小时前
前缀和|差分
数据结构·算法
加油吧zkf2 小时前
Conda虚拟环境管理:从入门到精通的常用命令
图像处理·深度学习·计算机视觉·conda
小宋0013 小时前
使用LLaMA-Factory微调Qwen2.5-VL-3B 的目标检测任务-数据集格式转换(voc 转 ShareGPT)
人工智能·目标检测·计算机视觉