深入浅出3D感知中的优化与基于学习的技术1（原创系列）

近期几乎看了所有有关NERF技术论文，本身我研究的领域不在深度学习技术方向，是传统的机器人控制和感知。所以总结了下这部分基于学习的感知技术，会写一个新的系列教程讲解这部分三维感知技术的发展到最新的技术细节，并支持自己最近的项目开发和论文。本系列禁止转载，有技术探讨可以发邮件给我 fanzexuan135@163.com

深入浅出3D感知中的优化与学习技术

1 引言

3D感知是计算机视觉和机器人领域的一个核心问题,旨在从2D图像恢复场景的3D结构和运动。它在自动驾驶、虚拟/增强现实、智能制造等许多领域有着广泛应用。传统的3D感知算法大多基于几何视觉的理论,通过精心建模和优化来求解相机位姿、场景结构等几何量。而近年来,深度学习的崛起为3D感知问题带来了新的思路和活力。本文将对3D感知中的经典优化方法和深度学习方法进行综述和对比,并重点介绍一些将二者结合的新进展,让读者对这一领域的基本概念和前沿成果有一个全面的了解。

2 将3D感知问题建模为优化问题

在3D感知的诸多任务中,如相机定位、稠密重建、非刚性形变估计等,我们面临的核心问题往往可以表述为一个优化问题:
min ⁡ x ∈ X E ( x ; y ) ( 1 ) \min\limits_{x \in X} E(x; y) \qquad (1) x∈XminE(x;y)(1)

其中 y y y表示输入的观测数据(如一组图像),而 x x x表示我们感兴趣的几何量(如相机位姿、场景深度),构成了优化变量。 X X X表示 x x x的可行域,囊括了我们对 x x x已知的先验知识(如相机姿态必须是刚体变换)。 E ( x ; y ) E(x; y) E(x;y)是一个衡量 x x x与 y y y匹配程度的目标函数(或代价函数),可以分解为数据项和正则项两部分:
E ( x ; y ) = D ( x ; y ) + R ( x ) ( 2 ) E(x; y) = D(x; y) + R(x) \qquad (2) E(x;y)=D(x;y)+R(x)(2)

数据项 D ( x ; y ) D(x; y) D(x;y)度量了在当前估计 x x x下,观测数据 y y y的拟合/重投影误差,反映了 x x x对 y y y的解释能力。以双目立体匹配为例,若 y y y为左右两帧图像,而 x x x为像素的视差值,则数据项可以定义为:
D ( x ; y l , y r ) = ∑ p ρ ( y l ( p ) , y r ( p − [ x ( p ) , 0 ] T ) ) ( 3 ) D(x; y_l, y_r) = \sum_p \rho\Big( y_l(p), y_r\big(p - [x(p), 0]^T\big) \Big) \qquad (3) D(x;yl,yr)=p∑ρ(yl(p),yr(p−[x(p),0]T))(3)

其中 p p p遍历所有像素, ρ ( ⋅ ) \rho(\cdot) ρ(⋅)为某种颜色/梯度constancy误差度量。这个数据项的意义是:在估计的视差 x x x下,将左图 y l y_l yl的像素 p p p投影到右图 y r y_r yr,若视差正确,则左右图像的局部外观应该一致。

正则项 R ( x ) R(x) R(x)通常基于一些先验假设,对 x x x施加额外约束,鼓励解具有某些良好性质。以稠密重建为例,我们通常假设相邻像素的深度值是接近的(分段光滑),于是可以定义一个鼓励深度图光滑的正则项:
R ( x ) = ∑ p ∥ ∇ x ( p ) ∥ 1 ( 4 ) R(x) = \sum_p \|\nabla x(p)\|_1 \qquad (4) R(x)=p∑∥∇x(p)∥1(4)

其中 p p p遍历像素, ∇ x ( p ) \nabla x(p) ∇x(p)为深度图在 p p p处的梯度。

求解优化问题(1),得到的 x ∗ x^* x∗就是在观测数据 y y y下对真实几何量 x ^ \hat{x} x^的最大后验估计(MAP):
x ∗ = arg ⁡ max ⁡ x P ( x ∣ y ) = arg ⁡ max ⁡ x P ( y ∣ x ) P ( x ) ( 5 ) x^* = \arg\max_x P(x|y) = \arg\max_x P(y|x) P(x) \qquad (5) x∗=argxmaxP(x∣y)=argxmaxP(y∣x)P(x)(5)

换言之,优化求解的过程可以看作是在先验( R ( x ) R(x) R(x))和似然( D ( x ; y ) D(x; y) D(x;y))之间寻求平衡,得到后验概率最大的估计值。

当目标函数是凸的,且其梯度/Hessian矩阵容易计算时,优化问题可以用牛顿法、高斯牛顿法、梯度下降等经典算法有效求解。然而,3D感知问题的目标函数往往是高度非线性和非凸的,优化变量 x x x所在的空间(如李群流形SE(3))也可能是非欧的,这给问题的求解带来很大挑战。

3 经典的优化算法及其局限性

针对非线性最小二乘型的3D感知问题,高斯牛顿法是最常用的优化算法。它在当前估计点 x k x_k xk处,对目标函数 E ( x ) E(x) E(x)做二阶泰勒展开:
E ( x ) ≈ E ( x k ) + J ( x k ) Δ x + 1 2 Δ x T H ( x k ) Δ x ( 6 ) E(x) \approx E(x_k) + J(x_k) \Delta x + \frac{1}{2} \Delta x^T H(x_k) \Delta x \qquad (6) E(x)≈E(xk)+J(xk)Δx+21ΔxTH(xk)Δx(6)

其中 J ( x k ) = ∂ E ∂ x ∣ x = x k J(x_k) = \frac{\partial E}{\partial x}|{x=x_k} J(xk)=∂x∂E∣x=xk为 E E E在 x k x_k xk处的Jacobian矩阵, H ( x k ) = ∂ 2 E ∂ x 2 ∣ x = x k ≈ J ( x k ) T J ( x k ) H(x_k) = \frac{\partial^2 E}{\partial x^2}|{x=x_k} \approx J(x_k)^T J(x_k) H(xk)=∂x2∂2E∣x=xk≈J(xk)TJ(xk)为近似的Hessian矩阵。高斯牛顿法通过求解如下线性方程来生成更新步长 Δ x k \Delta x_k Δxk:
H ( x k ) Δ x k = − J ( x k ) T r ( x k ) ( 7 ) H(x_k) \Delta x_k = -J(x_k)^T r(x_k) \qquad (7) H(xk)Δxk=−J(xk)Tr(xk)(7)

其中 r ( x k ) : = D ( x ; y ) ∣ x = x k r(x_k) := D(x; y)|{x=x_k} r(xk):=D(x;y)∣x=xk为数据项的残差。然后用 Δ x k \Delta x_k Δxk更新当前估计:
x k + 1 = x k ⊞ Δ x k ( 8 ) x{k+1} = x_k \boxplus \Delta x_k \qquad (8) xk+1=xk⊞Δxk(8)

直到 Δ x k \Delta x_k Δxk足够小。这里的 ⊞ \boxplus ⊞表示在流形空间(如SE(3))上的加法。注意 ( 7 ) (7) (7)是个高维稀疏线性系统,可用Cholesky分解或预条件共轭梯度等方法高效求解。

当目标函数局部可以很好地用二次函数近似时,高斯牛顿法具有二阶收敛速度。然而它也有一些局限性:

在最优解附近,目标函数的Hessian阵必须是正定的,否则 ( 7 ) (7) (7)不保证有解。
Jacobian矩阵 J ( x k ) J(x_k) J(xk)中的某些项可能在数值上或理论上难以定义/求导,如光度误差对姿态变量的导数。
算法容易停留在局部极小值,缺乏全局视野。
若目标函数含有非光滑的正则项(如 L 1 L_1 L1范数),则Jacobian在奇异点不存在。

一些改进的优化技术如Levenberg-Marquardt方法通过信赖域策略缓解了正定性问题,但其它问题仍然存在。

为了增强鲁棒性,人们常常在数据项中使用截断二次等M估计函数,降低异常值的影响。但这些非凸函数也使得优化更加困难,可能需要更复杂的启发式或全局优化策略。

4 基于深度学习的端到端方法

与经典建模范式不同,深度学习采用了一种数据驱动的端到端方法。其基本思想是:收集一个有代表性的数据集 D = { ( y i , x i ∗ ) } i = 1 N \mathcal{D}=\{(y_i, x_i^*)\}{i=1}^N D={(yi,xi∗)}i=1N,其中 y i y_i yi为输入图像, x i ∗ x_i^* xi∗为图像对应的ground truth几何参数(如深度图、光流场等)。然后训练一个深层神经网络 f θ : y ↦ x f\theta: y \mapsto x fθ:y↦x,其参数 θ \theta θ通过最小化如下经验风险而学习得到:
L ( θ ) = ∑ i = 1 N l ( f θ ( y i ) , x i ∗ ) ( 9 ) \mathcal{L}(\theta) = \sum_{i=1}^N l\big(f_\theta(y_i), x_i^*\big) \qquad (9) L(θ)=i=1∑Nl(fθ(yi),xi∗)(9)

其中 l ( ⋅ ) l(\cdot) l(⋅)为某种loss函数,如 L 1 / L 2 L_1/L_2 L1/L2 loss。这一范式的优点是:

端到端可微分,不需要人工提取特征或设计目标函数/优化策略。只要定义合适的网络结构和loss函数,就可以从数据中自动学习复杂的映射。
前向推断速度快,可满足实时性需求。
可迁移性好。从一个场景学到的泛化能力可迁移到新场景。

以单目深度估计为例,Eigen等[1]首次将CNN应用于该任务。他们在网络的encoder中使用了两个并行的VGG分支分别提取全局和局部特征,decoder采用多尺度架构,在4个spatial resolution下估计深度,并对深度图施加了尺度不变loss和平滑loss。Laina等[2]提出了更深的ResNet架构,并引入了反距离的Berhu loss,取得了更好的效果。

对于光流估计,FlowNet[3]首次证明了深度回归在该任务上的有效性。后续的FlowNet2[4]引入了级联和迭代细化,大幅提升了估计精度。RAFT[5]从另一角度解决该问题,巧妙地将经典的优化过程与深度特征提取相结合,可以看作本文后面要重点介绍的一类混合方法。

尽管深度学习取得了瞩目成绩,但纯端到端的黑盒回归也有其局限性:

缺乏对几何和物理规律的显式建模,纯数据驱动的学习有时不够稳定,容易受domain gap影响。
需要大量paired数据做监督训练,在许多3D感知任务上难以获得,labeled数据的稀缺限制了模型的表现。
不可解释和可控。学习到的映射高度复杂,缺乏可解释性。网络的预测结果不能保证满足一些几何约束。

因此,如何将基于物理的归纳偏置与深度学习的表达能力相结合,已成为新的研究热点。

5 将深度学习嵌入优化过程

一类有前景的混合方法是将深度学习嵌入到传统优化过程中,形成"可学习"、"可微分"的复合层。这类方法在经典优化算法的框架下,用学习的模块替代手工设计的某些部分(如能量/梯度的计算),并端到端训练整个系统。RAFT[5]是这一思想在光流估计任务上的代表作。

与FlowNet等直接回归光流场的方法不同,RAFT明确建模了光流估计中的迭代优化过程。记 I 1 , I 2 \mathcal{I}_1, \mathcal{I}_2 I1,I2为输入的两帧图像,网络的目标是学习一个映射:
f 1 , f 2 , ... , f N = R A F T ( I 1 , I 2 ) ( 10 ) f_1, f_2, \dots, f_N = \mathrm{RAFT}(\mathcal{I}_1, \mathcal{I}_2) \qquad (10) f1,f2,...,fN=RAFT(I1,I2)(10)

其中 f k ∈ R H × W × 2 f_k \in \mathbb{R}^{H \times W \times 2} fk∈RH×W×2为第 k k k次迭代估计的光流场。具体来说,RAFT包含三个关键组件:

(1) 特征提取网络,用CNN从输入图像中提取高层特征:
F 1 = F e a t u r e E n c o d e r ( I 1 ) , F 2 = F e a t u r e E n c o d e r ( I 2 ) ( 11 ) \mathbf{F}_1 = \mathrm{FeatureEncoder}(\mathcal{I}_1), \quad \mathbf{F}_2 = \mathrm{FeatureEncoder}(\mathcal{I}_2) \qquad (11) F1=FeatureEncoder(I1),F2=FeatureEncoder(I2)(11)

(2) 相关体计算模块,基于当前估计的光流场 f k f_k fk和特征 F 1 , F 2 \mathbf{F}_1, \mathbf{F}_2 F1,F2构造一个4D相关体:
C k = C o m p u t e C o r r e l a t i o n ( f k , F 1 , F 2 ) ( 12 ) \mathbf{C}_k = \mathrm{ComputeCorrelation}(f_k, \mathbf{F}_1, \mathbf{F}_2) \qquad (12) Ck=ComputeCorrelation(fk,F1,F2)(12)

直观上, C k [ i , j , p , q ] \mathbf{C}_k[i, j, p, q] Ck[i,j,p,q]度量了以 f k [ i , j ] f_k[i, j] fk[i,j]为中心的 I 1 \mathcal{I}_1 I1局部patch与 I 2 \mathcal{I}_2 I2中对应patch的相似性。这一步可以看作传统优化方法中计算匹配代价的过程。

(3) GRU更新单元,迭代细化光流估计:
h k + 1 , f k + 1 = G R U U p d a t e ( f k , h k , C k ) ( 13 ) h_{k+1}, f_{k+1} = \mathrm{GRUUpdate}(f_k, h_k, \mathbf{C}_k) \qquad (13) hk+1,fk+1=GRUUpdate(fk,hk,Ck)(13)

其中 h k h_k hk是隐藏状态, f k + 1 f_{k+1} fk+1是细化后的光流场。这一步可以看作传统优化中的梯度下降更新。但与手工设计的梯度不同,这里的更新方向由数据驱动学习得到。

整个RAFT网络是端到端可训练的,所有参数都通过最小化预测光流场 f N f_N fN与GT光流场 f ∗ f^* f∗的差异来学习:
L ( θ ) = ∑ i = 1 M ∥ f N ( i ) − f ∗ ( i ) ∥ 1 ( 14 ) \mathcal{L}(\theta) = \sum_{i=1}^M \|f_N^{(i)} - f^{*(i)}\|_1 \qquad (14) L(θ)=i=1∑M∥fN(i)−f∗(i)∥1(14)

RAFT的优点在于,它将学习的连续warp和相关计算嵌入到每一步的迭代更新中,而非单纯堆叠卷积层,赋予了网络更强的归纳偏置。同时,显式建模迭代过程也使得网络更加可解释。实验表明,这一混合范式在准确性和泛化性方面都优于纯端到端的回归方法。

类似地,BA-Net[6]以及LM-Reloc[7]将深度学习引入SLAM后端优化中。它们用学习的网络模块替代了传统的 bundle adjustment (BA) 流程中的某些手工设计部分,如:

(1) 在Pose-Graph优化中,用GNN预测每条边的信息矩阵,作为Mahalanobis距离的权重[6];

(2) 在特征点BA中,用CNN预测每对匹配的置信度,作为Huber损失的权重[7]。

这些学习的模块可以看作是传统目标函数的"插件",使优化过程更加自适应和数据驱动。实验表明,嵌入学习模块的SLAM系统在准确性、鲁棒性方面都有明显提升。

6 将优化嵌入深度学习

与上一节"learning in optimization"的思路互补,另一类混合范式是将优化模块嵌入到深度网络中,形成端到端可训练的"可微分优化层"。这类方法用可微分的优化层(用内部迭代求解一个隐式函数)替代网络中的某些前馈层,使网络输出自动满足一些硬约束。

以经典的PnP问题为例,已知一组3D点 { X i } \{\mathbf{X}_i\} {Xi}在世界坐标系下的坐标和它们在相机中的2D投影 { x i } \{\mathbf{x}i\} {xi},估计相机的位姿 T ∈ S E ( 3 ) \mathbf{T} \in \mathrm{SE}(3) T∈SE(3)。传统的DLT、P3P等解法先建立目标函数:
E ( T ) = ∑ i = 1 N ∥ π ( T X i ) − x i ∥ 2 ( 15 ) E(\mathbf{T}) = \sum{i=1}^N \|\pi(\mathbf{T}\mathbf{X}_i) - \mathbf{x}_i\|^2 \qquad (15) E(T)=i=1∑N∥π(TXi)−xi∥2(15)

其中 π : P 3 → P 2 \pi: \mathbb{P}^3 \to \mathbb{P}^2 π:P3→P2为相机投影模型。然后用SVD或Ransac求解一个闭式解 T ∗ = arg ⁡ min ⁡ T E ( T ) \mathbf{T}^* = \arg\min_{\mathbf{T}} E(\mathbf{T}) T∗=argminTE(T)。

DSAC[8]提出了一种可微分的RANSAC层,可以集成到任意网络中用于PnP估计。该层将传统RANSAC的采样、模型估计和评价过程公式化为可微分的操作,关键是将假设模型的评价函数softmax化:
s i = exp ⁡ ( − E ( T i ) / τ ) ∑ j exp ⁡ ( − E ( T j ) / τ ) ( 16 ) s_i = \frac{\exp(-E(\mathbf{T}i)/\tau)}{\sum{j} \exp(-E(\mathbf{T}_j)/\tau)} \qquad (16) si=∑jexp(−E(Tj)/τ)exp(−E(Ti)/τ)(16)

其中 τ \tau τ为温度参数。DSAC层的输出是加权的假设集合:
T ∗ = ∑ i s i T i , s.t. ∑ i s i = 1 ( 17 ) \mathbf{T}^* = \sum_{i} s_i \mathbf{T}i, \quad \text{s.t.} \sum{i} s_i = 1 \qquad (17) T∗=i∑siTi,s.t.i∑si=1(17)

DSAC层可以插入到任意2D-3D匹配网络中,使网络输出的匹配自动满足PnP约束。实验表明,这种端到端的可微分求解范式可以明显提高姿态估计的精度,且节省后处理时间。

类似地,一些工作将ICP[9]、特征匹配[10]、mesh简化[11]等传统几何任务重构为可微分层,嵌入到深度网络中,实现几何约束感知的端到端学习。

参考文献: