单目深度估计重大突破:无需标签,精度超越 SOTA!西湖大学团队提出多教师蒸馏新方案

【导读】

单张RGB图像,也能重建出逼真的3D世界?

近日,西湖大学AGI实验室联合浙江工业大学等单位,提出了一种全新的多教师蒸馏算法,仅靠2万张无标签图片,就显著提升了单目深度估计的精度,刷新了现有SOTA!这一成果不仅降低了对标注数据的依赖,还让单目深度估计在更复杂的场景中表现得更强、更稳,真正为AI视觉感知打上"性价比"。>>更多资讯可加入CV技术群获取了解哦


一、什么是单目深度估计?为何重要?

单目深度估计指的是利用一张 RGB 图像预测场景中每个像素的深度信息,是当前计算机视觉领域中的重要任务。相比激光雷达或多摄像头系统,它具有成本低、部署简单的优势,在自动驾驶、AR/VR、机器人导航、三维建模、数字文物复原等领域应用广泛。

但同时,深度估计模型往往依赖大量带有真实深度信息的标注数据进行训练,这一过程耗时高、代价大。因此,如何在无标签或弱标签数据下提升模型性能,成为该领域的关键研究方向。


二、Distill Any Depth:打破依赖标签数据的限制

为了解决当前深度估计中对标签数据的高度依赖问题,研究团队提出了 Distill Any Depth 框架,核心包含以下两大技术创新:

跨上下文蒸馏 + 深度归一化优化

传统的深度估计蒸馏方法通常采用全局归一化策略 ,在对伪标签进行统一处理时可能引入噪声,掩盖局部细节

研究团队提出的方案结合了局部最小二乘归一化和全局信息 ,通过局部归一化保留细节信息,提升伪标签质量。在此基础上,引入了 "跨上下文蒸馏" 机制:

  • 共享上下文蒸馏: 教师与学生模型使用同一张图像。
  • 局部-全局蒸馏: 教师模型专注于局部区域,学生模型在整图上学习,并通过设计一致性损失强化细节与全局结构的融合

这种机制使得模型在细节预测上更精准 ,在整体结构理解上更稳定,有效缓解了伪标签蒸馏中的信息损失问题。

多教师协同蒸馏架构

团队进一步提出使用多教师模型进行蒸馏。每次训练时,系统从多个预训练的主流深度估计模型中(如 MiDaS v3.1、DepthAnything v2、Marigold 等)随机选择一个生成伪标签。

多模型协同带来的互补信息 ,使得学生模型能够学习到更全面的深度表达,增强了泛化能力和鲁棒性,尤其在面对不规则、复杂、低质量图像时依然表现出色。


三、实验验证:在多个数据集上刷新性能

该方法在包括 NYUv2、ScanNet(室内场景)和 KITTI、ETH3D、DIODE(户外场景)在内的多个公开数据集上进行了全面验证。

定量结果显示:

  • 模型在平均误差、相对误差等多个指标上均优于当前主流方法;
  • 学生模型在多个任务中甚至超过教师模型,展现出强大的学习能力。

定性结果也非常亮眼:

  • 在复杂图像中(如卡通线稿、发丝边缘、简笔画等),新方法生成的深度图细节更清晰,边缘更平滑,视觉层次更准确;
  • 在野外环境下模型预测更稳定,体现出极强的泛化能力。

四、应用前景广阔:从工业到内容创作全面受益

单目深度估计的进步,将极大促进以下领域的智能化升级:

  • 自动驾驶与机器人导航: 无需昂贵的雷达设备,依靠普通摄像头即可实现精确的环境建图与障碍检测;
  • AR/VR 与数字孪生: 快速构建高度贴近现实的 3D 空间,为沉浸式体验提供强大支持;
  • 影视与游戏制作: 基于单图像还原三维结构,提升建模效率与真实感;
  • 文化遗产保护: 非接触式地对文物进行三维重建,避免因传统测量手段带来的破坏;
  • 建筑与室内设计: 照片级建模,快速生成三维空间草图和装修布局预览。

总结与展望

Distill Any Depth 是对深度估计领域的重要补充,特别是在无标签学习和模型蒸馏方面提出了可复制、可推广的新方法。通过局部归一化、跨上下文蒸馏与多教师协同机制,显著提升了单目深度估计在各类场景中的表现,降低了实际部署门槛。

未来,随着该方法的进一步优化,单目深度估计有望在更多智能系统中发挥基础性作用,尤其是在资源受限、数据稀缺但对三维理解要求高的任务中,展现更强大的生命力。

论文链接:arxiv.org/abs/2502.19...

相关推荐
Aaron15881 分钟前
基于VU13P在人工智能高速接口传输上的应用浅析
人工智能·算法·fpga开发·硬件架构·信息与通信·信号处理·基带工程
予枫的编程笔记3 分钟前
【论文解读】DLF:以语言为核心的多模态情感分析新范式 (AAAI 2025)
人工智能·python·算法·机器学习
HyperAI超神经6 分钟前
完整回放|上海创智/TileAI/华为/先进编译实验室/AI9Stars深度拆解 AI 编译器技术实践
人工智能·深度学习·机器学习·开源
im_AMBER12 分钟前
Leetcode 99 删除排序链表中的重复元素 | 合并两个链表
数据结构·笔记·学习·算法·leetcode·链表
碎碎思25 分钟前
在 FPGA 上实现并行脉冲神经网络(Spiking Neural Net)
人工智能·深度学习·神经网络·机器学习·fpga开发
王老师青少年编程30 分钟前
信奥赛C++提高组csp-s之欧拉回路
c++·算法·csp·欧拉回路·信奥赛·csp-s·提高组
Terrence Shen37 分钟前
【CUDA编程系列】之01
c++·人工智能·深度学习·机器学习
墨有66638 分钟前
数学分析栈的出栈顺序:从算法判断到数学本质(卡特兰数初探)
c++·算法·数学建模
AI即插即用39 分钟前
超分辨率重建 | CVPR 2024 DarkIR:轻量级低光照图像增强与去模糊模型(代码实践)
图像处理·人工智能·深度学习·神经网络·计算机视觉·超分辨率重建
zhutoutoutousan42 分钟前
氛围数学学习:用游戏化思维征服抽象数学
学习·算法·游戏