计算机视觉-自动驾驶

文章目录

一、3D重建

1.三维空间的点的3种存储方式

1.体素 (voxel)

2.网格 (grid)

3.3D点云

二、3D占用感知 (3D occupancy perception)

1.方法

(1)BEV

1.定义

鸟瞰图,bird's-eye view (BEV)

2.优缺点

①优点:全景视角(多视角融合),减少盲区

②缺点:丢失了高度信息

3.分类

基于输入数据,将BEV感知研究主要分为三个部分:BEV Camera、BEV LiDAR 和 BEV Fusion

1.BEVCamera:表示仅有视觉或以视觉为中心的算法,用于从多个周围摄像机进行三维目标检测或分割

BEV Camrea中的代表之作是BEVFormer。BEVFormer 通过提取环视相机采集到的图像特征并将提取的环视特征通过模型学习的方式转换到BEV 空间(模型去学习如何将特征从图像坐标系转换到 BEV 坐标系),从而实现 3D 目标检测和地图分割任务,并取得了 SOTA 的效果

2.BEVLiDAR:描述了点云输入的检测或分割任务

3.BEVFusion:描述了来自多个传感器输入的融合机制,例如摄像头、激光雷达、全球导航卫星系统、里程计,高清地图、CAN总线等

(2)Occ

Occ (Occupancy)通过体素网格,保留了丰富的几何信息,但是计算量非常大。因为存在大量的不含任何物体的自由空间区域导致冗余计算,稀疏性过高。

(3)TPV

TPV(Tri-Perspective View)引入三视角,但可能出现对象重叠问题。

计算量:BEV < Occ < TPV

2.应用

自动驾驶中基于占用的应用 3D 占用感知能够全面理解 3D 世界,并支持自动驾驶中的各种任务。现有的基于占用的应用包括分割、检测、动态感知、世界模型和自动驾驶算法框架。

①分割:语义占用感知本质上可以被视为 3D 语义分割任务。

②检测:OccupancyM3D 5 和 SOGDet 6 是两项基于占用的工作,实现了 3D 对象检测。OccupancyM3D 首先学习占用以增强 3D 特征,然后将其用于 3D 检测。SOGDet 开发了两个并发任务:语义占用预测和 3D 对象检测,同时训练这些任务以实现相互增强。

③动态感知:其目标是以预测动态对象的占用流的形式捕获周围环境中的动态对象及其运动。强监督的 Cam4DOcc 10 和自监督的 LOF 160 在占用流预测方面显示出了潜力。

④世界模型:它通过观察当前和历史数据来模拟和预测周围环境的未来状态 161。根据输入的观测数据,开创性的工作可以分为基于语义占用序列的世界模型(例如 OccWorld 162 和 OccSora 163)、基于点云序列的世界模型(例如 SCSF 108、UnO 164、PCF 165)以及基于多摄像头图像序列的世界模型(例如 DriveWorld 7 和 Cam4DOcc 10)。然而,这些工作在高质量的长期预测方面仍然表现不佳。

⑤自动驾驶算法框架:它将不同的传感器输入集成到统一的占用表示中,然后将占用表示应用于广泛的驾驶任务,例如 3D 对象检测、在线映射、多对象跟踪、运动预测等。

三、词汇表 Glossary

英文 中文
benchmark 基准
pipeline 工作流程,类似flow
Data Pipeline 数据管线

pipeline:从输入到输出的一系列处理步骤,如何把数据一步步地传递和转换,以达到最终目标

相机的位姿内参

四、论文的构成

1.作者 Author

2.数据集 Dataset

3.动机 Motivation

4.方法 Method

5.实验 Experiments

6.基准 BenchMark

相关推荐
ʜᴇɴʀʏ2 小时前
SSVOD 基础知识
人工智能·目标检测·计算机视觉
TMT星球2 小时前
魔法原子上交会首秀VLA K02大模型,完成具身智能从“执行”到“理解”的能力跃迁
人工智能·算法·机器学习
YOLO视觉与编程2 小时前
jetson orin nano烧录jetpack7.2系统
人工智能·深度学习·yolo·目标检测·机器学习
知行合一。。。2 小时前
大模型工具--01--ClaudeCode简介安装
机器学习
Deitymoon2 小时前
RV1126——OSD模块和SDL_TTF结合输出H264文件
计算机视觉·音视频·rv1126·osd
学Linux的语莫3 小时前
大模型微调数据集格式详解:Alpaca、ShareGPT、DPO、KTO、预训练数据怎么构建?
人工智能·算法·机器学习·微调格式
一切皆是因缘际会3 小时前
LLM温度Temperature底层采样机理
人工智能·机器学习·ai·架构
Asize3 小时前
Prompt 驱动 NLP:从 ES6 模块化到文本推理实战
javascript·人工智能·机器学习
mxlwd1684 小时前
movielen 100k lr模型训练过程
开发语言·python·机器学习