计算机视觉-自动驾驶

文章目录

一、3D重建
- 1.三维空间的点的3种存储方式
二、3D占用感知 (3D occupancy perception)
- 1.方法
- - (1)BEV
  - (2)Occ
  - (3)TPV
- 2.应用
[三、词汇表 Glossary](#三、词汇表 Glossary)
四、论文的构成

一、3D重建

1.三维空间的点的3种存储方式

1.体素 (voxel)

2.网格 (grid)

3.3D点云

二、3D占用感知 (3D occupancy perception)

1.方法

(1)BEV

1.定义

鸟瞰图，bird's-eye view (BEV)

2.优缺点

①优点：全景视角(多视角融合)，减少盲区

②缺点：丢失了高度信息

3.分类

基于输入数据，将BEV感知研究主要分为三个部分：BEV Camera、BEV LiDAR 和 BEV Fusion

1.BEVCamera：表示仅有视觉或以视觉为中心的算法，用于从多个周围摄像机进行三维目标检测或分割

BEV Camrea中的代表之作是BEVFormer。BEVFormer 通过提取环视相机采集到的图像特征并将提取的环视特征通过模型学习的方式转换到BEV 空间(模型去学习如何将特征从图像坐标系转换到 BEV 坐标系)，从而实现 3D 目标检测和地图分割任务，并取得了 SOTA 的效果

2.BEVLiDAR：描述了点云输入的检测或分割任务

3.BEVFusion：描述了来自多个传感器输入的融合机制，例如摄像头、激光雷达、全球导航卫星系统、里程计，高清地图、CAN总线等

(2)Occ

Occ (Occupancy)通过体素网格，保留了丰富的几何信息，但是计算量非常大。因为存在大量的不含任何物体的自由空间区域导致冗余计算，稀疏性过高。

(3)TPV

TPV(Tri-Perspective View)引入三视角，但可能出现对象重叠问题。

计算量：BEV < Occ < TPV

2.应用

自动驾驶中基于占用的应用 3D 占用感知能够全面理解 3D 世界，并支持自动驾驶中的各种任务。现有的基于占用的应用包括分割、检测、动态感知、世界模型和自动驾驶算法框架。

①分割：语义占用感知本质上可以被视为 3D 语义分割任务。

②检测：OccupancyM3D $5$ 和 SOGDet $6$ 是两项基于占用的工作，实现了 3D 对象检测。OccupancyM3D 首先学习占用以增强 3D 特征，然后将其用于 3D 检测。SOGDet 开发了两个并发任务：语义占用预测和 3D 对象检测，同时训练这些任务以实现相互增强。

③动态感知：其目标是以预测动态对象的占用流的形式捕获周围环境中的动态对象及其运动。强监督的 Cam4DOcc $10$ 和自监督的 LOF $160$ 在占用流预测方面显示出了潜力。

④世界模型：它通过观察当前和历史数据来模拟和预测周围环境的未来状态 $161$ 。根据输入的观测数据，开创性的工作可以分为基于语义占用序列的世界模型（例如 OccWorld $162$ 和 OccSora $163$ ）、基于点云序列的世界模型（例如 SCSF $108$ 、UnO $164$ 、PCF $165$ ）以及基于多摄像头图像序列的世界模型（例如 DriveWorld $7$ 和 Cam4DOcc $10$ ）。然而，这些工作在高质量的长期预测方面仍然表现不佳。

⑤自动驾驶算法框架：它将不同的传感器输入集成到统一的占用表示中，然后将占用表示应用于广泛的驾驶任务，例如 3D 对象检测、在线映射、多对象跟踪、运动预测等。

三、词汇表 Glossary

英文	中文
benchmark	基准
pipeline	工作流程，类似flow
Data Pipeline	数据管线

pipeline：从输入到输出的一系列处理步骤，如何把数据一步步地传递和转换，以达到最终目标

相机的位姿和内参

四、论文的构成

1.作者 Author

2.数据集 Dataset

3.动机 Motivation

4.方法 Method

5.实验 Experiments

6.基准 BenchMark