自动驾驶3D目标检测综述(五)

本篇继前四篇(综述前六章)之后,开始第七章内容的介绍。前四篇的内容在我的主页可以看到,本篇从第七章时间3D目标检测开始介绍。


目录

一、激光雷达序列的3D目标检测

(一)问题和挑战

(二)顺序扫描的3D目标检测

二、流数据三维目标检测

(一)问题和挑战

(二)流3D目标检测

三、视频3D目标检测

(一)问题和挑战

(二)基于视频的3D目标检测


第七章 时间3D目标检测

在这个章节中主要介绍时间三维目标检测方法。基于数据类型,可以将这些方法分成三类:雷达序列检测、流输入的检测和来自视频的检测。在第一节,我们会回顾采用顺序激光雷达扫描的三维目标检测方法。第二节会介绍采用流数据作为输入的检测方法。第三节我们会研究一种来自视频和多模态时间数据的三维目标检测。方法总述如下图:

方法分类表如下图所示:

一、激光雷达序列的3D目标检测

(一)问题和挑战

虽然大部分方法都聚焦于从一个单帧的点云中进行检测,但目前也存在许多方法采用的是多帧点云作为输入,这也是为了更精确的三维目标检测。这些方法尝试采用各种各样的时间模型工具融合多帧特征以达到解决时间检测问题,并且他们也因为将多帧目标点合并成一个单帧而能够获得更加完整的三维形状。时间三维目标检测已经在离线三维自动标签化的管道上取得巨大成功。然而,在机载应用中,这些方法依旧存在内存和延迟的问题,因为获取多帧信息必然带来额外时间和内容消耗,这种情况也会在模型于嵌入式设备上运行时变得更加严重。来自激光雷达序列的时间三维目标检测阐述如下图所示:

我们可以看到多帧点云首先通过一个三维目标检测器生成目标建议框,再通过时间聚合(如注意力机制、长短时记忆网络、图网络、Transformer)最后生成目标检测结果。

(二)顺序扫描的3D目标检测

大部分采用多帧点云的检测方法都使用建议级时间信息聚合。也就是说,三维目标建议框首先通过共享检测器从各个点云帧中独立生成,之后将各种各样的时间模型应用在目标建议框和各自RoI特征上来聚合来自不同框架的目标信息。采用的时间聚合模块包括时间注意、ConvGRU、图网络、LSTM(长短时记忆网络)以及Transformer。时间三维目标检测也被应用到三维目标自动标签化管道中。除了来自多帧的点云时间检测外,还有许多工作采用了顺序范围图像用以三维目标检测。

二、流数据三维目标检测

(一)问题和挑战

通过可旋转的激光雷达采集的点云数据本质上是一种流数据,其中激光雷达数据包在扫描中顺序记录。它通常需要50-100毫秒来旋转激光雷达传感器生成一个360°完整激光雷达扫描图,这也就意味着一旦点云图生成了,它就不再准确反映场景确切时间。这也就向自动驾驶应用提出了一项挑战,因为自动驾驶通常需要最小化反应时间以保证驾驶安全。许多人做出尝试,想要直接从流数据中检测三维目标。这些方法通常在活跃的激光雷达数据包上立刻检测出三维目标而不等到完整的扫描图构建完成。相比于采用完整激光雷达扫描图检测,流数据三维目标检测对车辆感知来说是一个更加精确和低延迟的解决方法。流数据三维目标检测方法阐述如下图所示:

(二)流3D目标检测

与多帧点云时间检测相似,流检测方法也将每个激光雷达数据包用作一个独立的样本来检测三维目标并应用实践模块到顺序包上学习包间关系。然而,一个激光雷达数据包通常不包含完整的点云信息并且来自单独一个包的信息通常不足以精确检测三维目标。为此,一些论文尝试为单独的包提供更多的上下文信息用作检测。已经提出的技术包括空间记忆库和一个多尺度上下文填充方案。

三、视频3D目标检测

(一)问题和挑战

视频是一种重要的数据类型并且在自动驾驶应用中易于获取。相比于基于单图像的三维目标检测,基于视频的三维目标检测很自然地得益于顺序图像的时间关系。当大量工作都聚焦于基于单图像的三维目标检测时,只有少量论文研究了视频三维目标检测的问题,这也给研究界留下了一项巨大的挑战。

(二)基于视频的3D目标检测

基于视频的检测方法通常通过在不同帧上追踪和融合相同目标来拓展基于图像的三维目标检测器。已经提出的追踪方法有LSTM以及三维卡尔曼滤波器。另外,也有一些工作采用视频和多帧点云以达到更精确的三维目标检测。这些方案提出了思维张量和时间融合以学习才来时间和多模态数据的特征。

相关推荐
aneasystone本尊6 分钟前
学习 GraphRAG 四大搜索策略
人工智能
小胖墩有点瘦21 分钟前
【基于深度学习的中草药识别系统】
人工智能·python·深度学习·课程设计·计算机毕业设计·中草药识别
六月的可乐29 分钟前
AI助理前端UI组件-悬浮球组件
前端·人工智能
R-G-B35 分钟前
OpenCV 实战篇——如何测算出任一副图片中的物体的实际尺寸?传感器尺寸与像元尺寸的关系?
人工智能·opencv·工业相机·传感器尺寸·像元·测算图片中的物体尺寸·像元与物体尺寸
Hello123网站42 分钟前
Ferret:苹果发布的多模态大语言模型
人工智能·语言模型·自然语言处理·ai工具
MobotStone44 分钟前
比对手快10倍?更强更精准?谷歌"纳米香蕉"到底藏着什么黑科技
人工智能
爱写代码的小朋友1 小时前
STEM背景下人工智能素养框架的研究
人工智能
大学生毕业题目2 小时前
毕业项目推荐:83-基于yolov8/yolov5/yolo11的农作物杂草检测识别系统(Python+卷积神经网络)
人工智能·python·yolo·目标检测·cnn·pyqt·杂草识别
居7然2 小时前
美团大模型“龙猫”登场,能否重塑本地生活新战局?
人工智能·大模型·生活·美团
说私域2 小时前
社交新零售时代本地化微商的发展路径研究——基于开源AI智能名片链动2+1模式S2B2C商城小程序源的创新实践
人工智能·开源·零售