【导读】
单张RGB图像,也能重建出逼真的3D世界?
近日,西湖大学AGI实验室联合浙江工业大学等单位,提出了一种全新的多教师蒸馏算法,仅靠2万张无标签图片,就显著提升了单目深度估计的精度,刷新了现有SOTA!这一成果不仅降低了对标注数据的依赖,还让单目深度估计在更复杂的场景中表现得更强、更稳,真正为AI视觉感知打上"性价比"。>>更多资讯可加入CV技术群获取了解哦

一、什么是单目深度估计?为何重要?
单目深度估计指的是利用一张 RGB 图像预测场景中每个像素的深度信息,是当前计算机视觉领域中的重要任务。相比激光雷达或多摄像头系统,它具有成本低、部署简单的优势,在自动驾驶、AR/VR、机器人导航、三维建模、数字文物复原等领域应用广泛。
但同时,深度估计模型往往依赖大量带有真实深度信息的标注数据进行训练,这一过程耗时高、代价大。因此,如何在无标签或弱标签数据下提升模型性能,成为该领域的关键研究方向。
二、Distill Any Depth:打破依赖标签数据的限制
为了解决当前深度估计中对标签数据的高度依赖问题,研究团队提出了 Distill Any Depth 框架,核心包含以下两大技术创新:
跨上下文蒸馏 + 深度归一化优化
传统的深度估计蒸馏方法通常采用全局归一化策略 ,在对伪标签进行统一处理时可能引入噪声,掩盖局部细节。

研究团队提出的方案结合了局部最小二乘归一化和全局信息 ,通过局部归一化保留细节信息,提升伪标签质量。在此基础上,引入了 "跨上下文蒸馏" 机制:
- 共享上下文蒸馏: 教师与学生模型使用同一张图像。
- 局部-全局蒸馏: 教师模型专注于局部区域,学生模型在整图上学习,并通过设计一致性损失强化细节与全局结构的融合。
这种机制使得模型在细节预测上更精准 ,在整体结构理解上更稳定,有效缓解了伪标签蒸馏中的信息损失问题。

多教师协同蒸馏架构
团队进一步提出使用多教师模型进行蒸馏。每次训练时,系统从多个预训练的主流深度估计模型中(如 MiDaS v3.1、DepthAnything v2、Marigold 等)随机选择一个生成伪标签。
多模型协同带来的互补信息 ,使得学生模型能够学习到更全面的深度表达,增强了泛化能力和鲁棒性,尤其在面对不规则、复杂、低质量图像时依然表现出色。
三、实验验证:在多个数据集上刷新性能
该方法在包括 NYUv2、ScanNet(室内场景)和 KITTI、ETH3D、DIODE(户外场景)在内的多个公开数据集上进行了全面验证。

定量结果显示:
- 模型在平均误差、相对误差等多个指标上均优于当前主流方法;
- 学生模型在多个任务中甚至超过教师模型,展现出强大的学习能力。

定性结果也非常亮眼:
- 在复杂图像中(如卡通线稿、发丝边缘、简笔画等),新方法生成的深度图细节更清晰,边缘更平滑,视觉层次更准确;
- 在野外环境下模型预测更稳定,体现出极强的泛化能力。

四、应用前景广阔:从工业到内容创作全面受益
单目深度估计的进步,将极大促进以下领域的智能化升级:
- 自动驾驶与机器人导航: 无需昂贵的雷达设备,依靠普通摄像头即可实现精确的环境建图与障碍检测;
- AR/VR 与数字孪生: 快速构建高度贴近现实的 3D 空间,为沉浸式体验提供强大支持;
- 影视与游戏制作: 基于单图像还原三维结构,提升建模效率与真实感;
- 文化遗产保护: 非接触式地对文物进行三维重建,避免因传统测量手段带来的破坏;
- 建筑与室内设计: 照片级建模,快速生成三维空间草图和装修布局预览。
总结与展望
Distill Any Depth 是对深度估计领域的重要补充,特别是在无标签学习和模型蒸馏方面提出了可复制、可推广的新方法。通过局部归一化、跨上下文蒸馏与多教师协同机制,显著提升了单目深度估计在各类场景中的表现,降低了实际部署门槛。
未来,随着该方法的进一步优化,单目深度估计有望在更多智能系统中发挥基础性作用,尤其是在资源受限、数据稀缺但对三维理解要求高的任务中,展现更强大的生命力。