【自动驾驶】单目摄像头实现自动驾驶3D目标检测


🍑个人主页:Jupiter. 🚀 所属专栏:传知代码 欢迎大家点赞收藏评论😊

目录


参考文献:需要本文的详细复现过程的项目源码、数据和预训练好的模型可从该地址处获取完整版:地址

概述

随着人工智能的蓬勃发展,自动驾驶技术正成为科技界的一大亮点。在这个领域中,道路信息感知被视为自动驾驶系统中至关重要的一环,因为它为车辆的规划和决策提供了必不可少的基础数据。

我很荣幸地向大家介绍RTM3D算法(单目3D目标检测)。这一算法利用nuscenes数据集中的前视摄像头图像进行训练,能够准确地检测出轿车、巴士、卡车等多种3D目标。更令人振奋的是,我们为您提供了基于PyTorch、ONNX Runtime和TensorRT推理框架的演示,并附带了PyTorch转ONNX、ONNX转TensorRT的脚本,使您可以轻松应用于实际场景中。

算法介绍

RTM3D的主要结构分为backbone和检测头。backbone主要使用ResNet18和DLA-34。其中上采样过程用了跨连接和双线性插值。同时提出了针对keypoint的FPN层。根据速度要求检测头由三个基本单元和6个可选的单元组成。在基本单元中,使用2DBBox的中心点作为哦中枢点负责各数据的联系。因为截断的物体3D框中心可能会超出图像范围,对检测不利。其它基本单元还有9个关键点的热力图和回归坐标,用来做点之间的联合。其它可选的部分有量化误差的补偿、物体的大小、方向,中心点的depth和2D bbox的大小。

网络结构

演示效果

图像推理

视频推理

核心代码

demo代码中定义图像以及模型的地址

python 复制代码
model_path = r"weights/rtm3d_nusc_ep100.pth"
image_path = r"demo/demo.jpg"

根据相机参数在lib/rtm3d_detector.py中调整calib

python 复制代码
self.calib_np = np.array([[721.5, 0.0,   336, 44.86],
                          [0.0,   721.5, 140, 0.216],
                          [0.0,   0.0,   1.0,   0.0027]], dtype=np.float32)

算法处理过程

python 复制代码
def process(self, images):
    with torch.no_grad():
        output = self.model(images)[-1]
        output['hm'] = output['hm'].sigmoid_()
        dets = car_pose_decode_faster(output['hm'], output['hps'], output['dim'], output['rot'],
                                      prob=output['prob'], K=self.K, meta=self.meta, const=self.const)
    return dets

demo代码中调用对应的detector,并返回检测结果和可视化结果

python 复制代码
results, show_img = detector.run(img, im1)

使用方式

环境搭建

python 复制代码
pip install -r requirements.txt

下载权重文件

请阅读附件中README.md的这一部分。

pytorch 推理(自动选择CPU或GPU)

python 复制代码
python image_infer.py # 单张图像推理
python pt_infer.py # 视频推理

onnxruntime 推理(自动选择CPU或GPU)

python 复制代码
python pt2onnx.py # pytorch格式模型转onnx格式
python onnx_infer.py # 视频推理

tensorrt 推理

python 复制代码
python pt2onnx.py # pytorch格式模型转onnx格式
python onnx2trt.py # onnx格式模型转tensorrt格式
python trt_infer.py # 视频推理

部署方式

在以上的demo文件中选择自己的图片/视频地址,如image_infer.py中修改image_path为自己的图像地址。

参考文献

python 复制代码
@misc{2009.00764,
Author = {Peixuan Li},
Title = {Monocular 3D Detection with Geometric Constraints Embedding and Semi-supervised Training},
Year = {2020},
Eprint = {arXiv:2009.00764},
}
@misc{2001.03343,
Author = {Peixuan Li and Huaici Zhao and Pengfei Liu and Feidao Cao},
Title = {RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving},
Year = {2020},
Eprint = {arXiv:2001.03343},
}
相关推荐
老胖闲聊1 小时前
Python Copilot【代码辅助工具】 简介
开发语言·python·copilot
Blossom.1181 小时前
使用Python和Scikit-Learn实现机器学习模型调优
开发语言·人工智能·python·深度学习·目标检测·机器学习·scikit-learn
曹勖之1 小时前
基于ROS2,撰写python脚本,根据给定的舵-桨动力学模型实现动力学更新
开发语言·python·机器人·ros2
DFminer2 小时前
【LLM】fast-api 流式生成测试
人工智能·机器人
lyaihao2 小时前
使用python实现奔跑的线条效果
python·绘图
郄堃Deep Traffic2 小时前
机器学习+城市规划第十四期:利用半参数地理加权回归来实现区域带宽不同的规划任务
人工智能·机器学习·回归·城市规划
ai大师3 小时前
(附代码及图示)Multi-Query 多查询策略详解
python·langchain·中转api·apikey·中转apikey·免费apikey·claude4
GIS小天3 小时前
AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年6月7日第101弹
人工智能·算法·机器学习·彩票
小小爬虾3 小时前
关于datetime获取时间的问题
python
阿部多瑞 ABU3 小时前
主流大语言模型安全性测试(三):阿拉伯语越狱提示词下的表现与分析
人工智能·安全·ai·语言模型·安全性测试