【论文笔记】VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving

原文链接:https://arxiv.org/pdf/2411.14716

本文提出VisionPAD,一种自监督的预训练范式,用于自动驾驶中的视觉算法。

1. 概述

如图所示,VisionPAD包含4个关键模块:

  1. 输入历史的多帧多视图图像,使用带显式表达(即占用)的视觉感知主干网络
  2. 使用3D高斯溅射解码器从体素表达中重建当前帧的多视图图像。
  3. 预测体素速度,从而可将当前帧体素特征变形到目标帧。这有助于使用3DGS解码器重建多视图相邻帧图像和深度图。
  4. 使用当前帧的目标深度图,通过光度一致性损失引入3D几何约束。

2. 体素建立

  1. 使用共享的图像主干 ,从 M M M帧历史的 N N N视图图像 I = { I i } i = 1 M I=\{I_i\}_{i=1}^M I={Ii}i=1M中提取2D图像特征 F I ∈ R N × H × W × C F_I\in\mathbb R^{N\times H\times W\times C} FI∈RN×H×W×C。
  2. 使用视图变换提升到以自车为中心的3D坐标系,生成体素特征。
  3. 使用由卷积组成的投影层 细化表达,得到 V ∈ R X × Y × Z × C V\in\mathbb R^{X\times Y\times Z\times C} V∈RX×Y×Z×C。

3. 3D高斯溅射解码器

3.1 准备知识

3D高斯溅射将3D场景表达为一组高斯基元 { g k = ( μ k , Σ k , α k , c k ) } k = 1 K \{g_k=(\mu_k,\Sigma_k,\alpha_k,c_k)\}_{k=1}^K {gk=(μk,Σk,αk,ck)}k=1K,其中每个高斯 g k g_k gk通过均值 μ k ∈ R 3 \mu_k\in R^3 μk∈R3,协方差 Σ k \Sigma_k Σk,不透明度 α k ∈ [ 0 , 1 ] \alpha_k\in[0,1] αk∈[0,1]以及球面谐波系数(SH) c k ∈ R k c_k\in R^k ck∈Rk表达。

协方差 Σ \Sigma Σ被参数化为缩放矩阵 S ∈ R + 3 S\in\mathbb R^3_+ S∈R+3和旋转矩阵 R ∈ R 4 R\in\mathbb R^4 R∈R4:
Σ = R S S T R T \Sigma=RSS^TR^T Σ=RSSTRT

将3D高斯投影到2D图像平面需要使用视图变换 W W W和投影变换仿射近似的雅可比矩阵 J J J。可根据下式得到投影的2D协方差 Σ ′ \Sigma' Σ′:
Σ ′ = J W Σ W T J T \Sigma'=JW\Sigma W^TJ^T Σ′=JWΣWTJT

为进行给定视角下的图像渲染,每个像素 p p p的特征通过混合 K K K个有序的高斯得到,即alpha混合:
C ( p ) = ∑ i = 1 K c i α i ∏ j = 1 i − 1 ( 1 − α j ) C(p)=\sum_{i=1}^{K}c_i\alpha_i\prod_{j=1}^{i-1}(1-\alpha_j) C(p)=i=1∑Kciαij=1∏i−1(1−αj)

其中 K K K为与 p p p对应的射线相交的高斯数量,密度 α i \alpha_i αi由2D高斯值与不透明度 α k \alpha_k αk相乘得到。

多视图深度图重建可根据下式进行:
D ( p ) = ∑ i = 1 K d i α i ∏ j = 1 i − 1 ( 1 − α j ) D(p)=\sum_{i=1}^{K}d_i\alpha_i\prod_{j=1}^{i-1}(1-\alpha_j) D(p)=i=1∑Kdiαij=1∏i−1(1−αj)

其中 d i d_i di为第 i i i个高斯到相机的距离。

与NeRF相比,3DGS的计算代价对图像分辨率不敏感,可渲染更高分辨率的图像,从而促进表达学习。

3.2 基元预测

本文将体素特征转化为一组3D高斯。

  1. 每个体素中心作为一个锚点,并使用MLP预测多个高斯基元的属性,包括相对体素中心的偏移量、球面谐波系数、不透明度、尺寸和旋转。
  2. 使用3DGS解码器渲染生成多视图图像 C ∈ R N × H × W × C C\in\mathbb R^{N\times H\times W\times C} C∈RN×H×W×C,并由当前帧的多视图图像监督

3.3 高斯过滤

为减少预训练时的计算开销,本文还基于预测的不透明度,过滤了低置信度的高斯。

  • 使用tanh激活函数 预测不透明度,并过滤值小于0的高斯

4. 自监督体素速度估计

本文使用场景中物体的时间一致性,自监督地估计每个体素的速度,从而丰富表达并促进对动态场景的理解。

4.1 速度指导的体素变形

  1. 使用辅助速度头,预测体素在世界坐标系下的速度矢量。
  2. 通过将预测速度矢量乘以帧间隔估计体素流。
  3. 将当前帧体素移动到相邻帧中的估计位置(通过GridSample操作实施)。

4.2 相邻帧渲染

获取变形的相邻帧体素特征后,使用3DGS解码器渲染多视图图像,并与相应的相邻帧真实图像比较,计算损失。该损失只用于更新预测的体素速度,以使模型优先考虑学习运动特征。

5. 光度一致性

光度一致性用于进行自监督的深度估计,利用目标帧 I t I_t It的预测深度图,将源帧 I t ′ I_{t'} It′重投影到源视角下:
I t ′ → t = I t ′ < p r o j ( D t , T t → t ′ , K ) > I_{t'\rightarrow t}=I_{t'}\left<proj(D_t,T_{t\rightarrow t'},K)\right> It′→t=It′⟨proj(Dt,Tt→t′,K)⟩

其中 < ⋅ > \left<\cdot\right> ⟨⋅⟩为可微网格采样(Grid Sample)操作, D t D_t Dt为目标帧的预测深度图, T t → t ′ T_{t\rightarrow t'} Tt→t′为将点从 t t t时刻变换到 t ′ t' t′时刻的相对姿态, K K K为相机内参。 p r o j ( ⋅ ) proj(\cdot) proj(⋅)为根据预测深度 D t D_t Dt计算的源帧 I t ′ I_{t'} It′中的像素坐标。光度损失计算如下:
L p c = α ( 1 − S S I M ( I t , I t ′ → t ) ) + ( 1 − α ) ∥ I t − I t ′ → t ∥ 1 L_{pc}=\alpha(1-SSIM(I_t,I_{t'\rightarrow t}))+(1-\alpha)\|I_t-I_{t'\rightarrow t}\|_1 Lpc=α(1−SSIM(It,It′→t))+(1−α)∥It−It′→t∥1

其中 I t I_t It为目标帧, I t ′ → t I_{t'\rightarrow t} It′→t为重投影图像。 α \alpha α为损失平衡权重。

当前帧渲染的深度图像 D t D_t Dt可按下式得到:
D t = 3 D G S ( V t . K t , T t ) D_t=3DGS(V_t.K_t,T_t) Dt=3DGS(Vt.Kt,Tt)

其中 V t , K t , T t V_t,K_t,T_t Vt,Kt,Tt分别为体素特征,相机内参和外参。

6. 预训练损失

包括当前帧的L1重建损失、L1速度估计损失和光度一致性损失。

相关推荐
墨绿色的摆渡人几秒前
论文笔记(一百零九)Discovering state-of-the-art reinforcement learning algorithms
论文阅读
AI视觉网奇26 分钟前
live2d 抠人脸
人工智能·opencv·计算机视觉
JERRY. LIU28 分钟前
Hodgkin-Huxley模型中的跨细胞膜电流
神经网络·计算机视觉
韩曙亮32 分钟前
【自动驾驶】Autoware 架构 ① ( 自动驾驶的两种核心技术架构 | 基于规则技术架构 | 端到端技术架构 )
人工智能·自动驾驶·e2e·autoware·端到端·基于规则技术架构·端到端技术架构
唯道行1 小时前
计算机图形学·25 消隐2 区域子分算法-光线投射算法
人工智能·算法·计算机视觉·计算机图形学·opengl
IT·小灰灰1 小时前
当AI开口说话:可灵视频2.6如何终结“默片时代“重塑视听共生
大数据·人工智能·python·深度学习·数据挖掘·开源·音视频
youcans_1 小时前
【跟我学YOLO】Mamba-YOLO-World:YOLO-World与Mamba 融合的开放词汇目标检测
论文阅读·人工智能·yolo·计算机视觉·mamba
渡我白衣1 小时前
AI应用层革命(六)——智能体的伦理边界与法律框架:当机器开始“做决定”
人工智能·深度学习·神经网络·机器学习·计算机视觉·自然语言处理·语音识别
张较瘦_1 小时前
[论文阅读] AI + 软件工程 | 叙事的力量+专家智慧:解锁定性软件工程研究的过去、现在与未来
论文阅读·人工智能·软件工程
小毅&Nora2 小时前
【人工智能】【深度学习】 ⑩ 图神经网络(GNN)从入门到工业落地:消息传递、稀疏计算与推荐/风控实战
人工智能·深度学习·图神经网络gnn