SVDC模型：手机上的深度估计革命

论文标题:
SVDC: Consistent Direct Time-of-Flight Video Depth Completion with Frequency Selective Fusion
发表日期:
2025年03月
作者:
Xuan Zhu, Jijun Xiang, Xianqi Wang, Longliang Liu, Yu Wang, Hong Zhang, Fei Guo, Xin Yang
发表单位:
Huazhong University of Science and Technology, Honor Device Co., Ltd
原文链接:
https://arxiv.org/pdf/2503.01257
开源代码链接:
https://github.com/Lan1eve/SVDC

引言

在现代移动设备上获得一致且准确的深度视频对于构建准确的3D场景模型至关重要，其在3D重建和AR/VR应用中扮演着重要角色。随着传感器技术的快速发展，轻量级的直接飞行时间（dToF）传感器为深度增强研究创造了新的机遇。通过发射激光脉冲并测量反射时间，dToF传感器获取深度信息，并提供了小巧、低成本和节能的优势。因此，它们吸引了学术界和工业界的广泛关注。

问题背景及相关工作

在智能设备的时代，深度传感器已经成为提高设备功能和用户体验的重要组成部分。**直接飞行时间（dToF）**传感器因其紧凑的尺寸、低成本及节能的特性，吸引了广泛的关注。然而，由于制造限制及成像原理，dToF深度图通常稀疏且噪声较多。为了改善这一问题，研究人员们一直在探索如何通过图像引导来增强深度信息。

传统方法中，++深度超分辨率++ 和++深度完成++ 是常用技术。深度超分辨率强调通过色彩引导逐步上采样，或将任务建模为像素到像素的映射。然而，现有方法难以有效处理dToF传感器的稀疏深度图，它们通常受到物理成像原理带来的巨大噪声影响，直接应用这些方法并不足以解决dToF数据的特定挑战。

方法概述

本文提出了一种名为SVDC 的方法，通过融合稀疏的dToF数据和相应的RGB引导来实现视频深度补全。该方法采用多帧融合方案，以减轻由稀疏dToF成像引起的空间模糊问题。为了解决在多帧融合过程中可能出现的帧间错位问题，本文引入了一种++自适应频率选择融合（AFSF）++模块，该模块能够自动选择卷积核大小以融合多帧特征。

图2. 提出的SVDC网络概览。CSEA模块增强多帧特征并提取注意力图，用于引导AFSF模块有选择性地融合多帧特征。最终，通过深度头获得低分辨率深度，并使用特征引导的像素shuffle模块进行精细化处理以产生最终深度。

术语解读

这里需要对一些术语进行解释，以便更好地理解本文的方法：

SVDC是一种新型的视频深度补全方法，它通过频率选择融合来增强深度图的准确性和一致性。

AFSF（Adaptive Frequency Selective Fusion，自适应频率选择融合）模块自动选择卷积核大小，以适应不同频率区域的特征融合。

CSEA（Channel-Spatial Enhancement Attention，通道-空间增强注意力）模块在多帧特征中提取注意力图以引导AFSF模块选择性地进行特征融合。

核心设计

在核心设计上，SVDC模型集成了CSEA和AFSF模块。首先，CSEA模块通过通道和空间注意力增强多帧特征，提取出高频和低频区域的注意力图。这些注意力图指导AFSF模块在不同区域应用不同大小的卷积核，从而实现对高频细节的保留和对低频区域异常高频噪声的抑制。最后，通过深度头得到初步深度图，并使用特征引导的像素shuffle模块进行精细化处理，得到最终的高精度深度图。

图3. 提出的CSEA和AFSF架构。左侧为CSEA模块，右侧为AFSF模块。

主要创新点

SVDC方法的主要创新点包括：

AFSF模块：通过自适应选择卷积核大小来实现特征的有效融合。

CSEA模块：通过通道和空间增强注意力，提取不同频率区域的注意力图。

交叉窗口一致性损失：通过约束不同窗口间同一帧的预测差异，提升时间一致性。

核心原理推导

AFSF模块的核心在于根据CSEA模块提取的注意力图进行卷积核大小的自适应选择。通过这种方式，SVDC方法不仅能够在高频区域保留细节，还能在低频区域抑制噪声。此外，交叉窗口一致性损失通过最小化不同窗口间同一帧的预测差异，进一步提升了模型在时间上的一致性。

图4. 交叉窗口时间一致性损失的监督过程。

数据准备及实验设计

为了评估SVDC方法的性能，作者使用了TartanAir和Dynamic Replica数据集。TartanAir数据集包含多达18个场景的视频数据，而Dynamic Replica数据集则包含室内环境中动态物体的合成视频。实验设计中，通过引入桶形畸变、随机偏移和旋转等扰动，模拟真实dToF成像系统的噪声特性。实验结果表明，SVDC方法在预测准确性和时间一致性方面均超越了现有方法。

图6. 在TartanAir数据集上的定性结果显示，未添加窗口一致性监督时，不同窗口间帧的边界处出现明显的闪烁现象。然而，添加监督后，闪烁问题得到了缓解。

实验结果

在实验结果方面，SVDC模型在TartanAir和Dynamic Replica数据集上表现出色，优于现有的单帧深度补全方法。本文采用了四种指标进行评估：均方根误差（RMSE）、平均绝对相对误差（REL）、时间终点误差（TEPE）和时间一致性指标（OPW）。实验结果如表4所示，本文的方法在准确性和一致性上均实现了最佳性能。此外，SVDC方法在边缘预测和光滑区域的预测上均优于DVDC方法。

实验结果分析

通过实验结果可以看出，SVDC方法在处理dToF稀疏深度图时表现出色。与传统的单帧补全方法相比，多帧融合策略显著提高了深度预测的准确性和一致性。这主要归功于AFSF模块和CSEA模块的有效结合，使得网络能够自适应地选择不同卷积核大小来处理不同频率区域的特征。此外，交叉窗口一致性损失的引入也有效地减轻了跨窗口的闪烁问题。