单目深度估计重大突破：无需标签，精度超越 SOTA！西湖大学团队提出多教师蒸馏新方案

【导读】

单张RGB图像，也能重建出逼真的3D世界？

近日，西湖大学AGI实验室联合浙江工业大学等单位，提出了一种全新的多教师蒸馏算法，仅靠2万张无标签图片，就显著提升了单目深度估计的精度，刷新了现有SOTA！这一成果不仅降低了对标注数据的依赖，还让单目深度估计在更复杂的场景中表现得更强、更稳，真正为AI视觉感知打上"性价比"。>>更多资讯可加入CV技术群获取了解哦

一、什么是单目深度估计？为何重要？

单目深度估计指的是利用一张 RGB 图像预测场景中每个像素的深度信息，是当前计算机视觉领域中的重要任务。相比激光雷达或多摄像头系统，它具有成本低、部署简单的优势，在自动驾驶、AR/VR、机器人导航、三维建模、数字文物复原等领域应用广泛。

但同时，深度估计模型往往依赖大量带有真实深度信息的标注数据进行训练，这一过程耗时高、代价大。因此，如何在无标签或弱标签数据下提升模型性能，成为该领域的关键研究方向。

二、Distill Any Depth：打破依赖标签数据的限制

为了解决当前深度估计中对标签数据的高度依赖问题，研究团队提出了 Distill Any Depth 框架，核心包含以下两大技术创新：

跨上下文蒸馏 + 深度归一化优化

传统的深度估计蒸馏方法通常采用全局归一化策略 ，在对伪标签进行统一处理时可能引入噪声，掩盖局部细节。

研究团队提出的方案结合了局部最小二乘归一化和全局信息 ，通过局部归一化保留细节信息，提升伪标签质量。在此基础上，引入了 "跨上下文蒸馏" 机制：

共享上下文蒸馏： 教师与学生模型使用同一张图像。
局部-全局蒸馏： 教师模型专注于局部区域，学生模型在整图上学习，并通过设计一致性损失强化细节与全局结构的融合。

这种机制使得模型在细节预测上更精准 ，在整体结构理解上更稳定，有效缓解了伪标签蒸馏中的信息损失问题。

多教师协同蒸馏架构

团队进一步提出使用多教师模型进行蒸馏。每次训练时，系统从多个预训练的主流深度估计模型中（如 MiDaS v3.1、DepthAnything v2、Marigold 等）随机选择一个生成伪标签。

多模型协同带来的互补信息 ，使得学生模型能够学习到更全面的深度表达，增强了泛化能力和鲁棒性，尤其在面对不规则、复杂、低质量图像时依然表现出色。

三、实验验证：在多个数据集上刷新性能

该方法在包括 NYUv2、ScanNet（室内场景）和 KITTI、ETH3D、DIODE（户外场景）在内的多个公开数据集上进行了全面验证。

定量结果显示：

模型在平均误差、相对误差等多个指标上均优于当前主流方法；
学生模型在多个任务中甚至超过教师模型，展现出强大的学习能力。

定性结果也非常亮眼：

在复杂图像中（如卡通线稿、发丝边缘、简笔画等），新方法生成的深度图细节更清晰，边缘更平滑，视觉层次更准确；
在野外环境下模型预测更稳定，体现出极强的泛化能力。

四、应用前景广阔：从工业到内容创作全面受益

单目深度估计的进步，将极大促进以下领域的智能化升级：

自动驾驶与机器人导航： 无需昂贵的雷达设备，依靠普通摄像头即可实现精确的环境建图与障碍检测；
AR/VR 与数字孪生： 快速构建高度贴近现实的 3D 空间，为沉浸式体验提供强大支持；
影视与游戏制作： 基于单图像还原三维结构，提升建模效率与真实感；
文化遗产保护： 非接触式地对文物进行三维重建，避免因传统测量手段带来的破坏；
建筑与室内设计： 照片级建模，快速生成三维空间草图和装修布局预览。

总结与展望

Distill Any Depth 是对深度估计领域的重要补充，特别是在无标签学习和模型蒸馏方面提出了可复制、可推广的新方法。通过局部归一化、跨上下文蒸馏与多教师协同机制，显著提升了单目深度估计在各类场景中的表现，降低了实际部署门槛。

未来，随着该方法的进一步优化，单目深度估计有望在更多智能系统中发挥基础性作用，尤其是在资源受限、数据稀缺但对三维理解要求高的任务中，展现更强大的生命力。

论文链接：arxiv.org/abs/2502.19...