LSS论文阅读

计算机视觉通用做法:

通常将图像作为输入,并输出一个与坐标系无关的预测(例如在分类中 [19, 30, 16, 17])

或一个与输入图像相同坐标系中的预测(例如在目标检测、语义分割或全景分割中 [7, 1, 15, 36])

单目3d目标检测分为3类

1、二阶段,第一阶段网络学习2d目标检测,第二阶段网络学习2d到3d的恢复

2、伪lidar:学习深度估计,同时预测bev

3、类似于detr3d,用3维参考点,基于内外参去各个2维图像上收集信息

BEV有两个体系

第一种体系是LSS, 通过显示深度估计获取3d信息

第二种体系是BEVFormer,通过3d采样点投影到2d来获取信息。

pipeline

图像特征提取-> lift升为3维-->外参矩阵获取2d信息->splat,将3维信息拍平到bev平面上

特点

1、训练从6个图像中随意选5个,进而使模型获取对任意相机的处理能力

2、对内外参增加噪声,用于应对内外参噪声的问题。

相关推荐
AI浩6 分钟前
回归基础:让去噪生成模型真正去噪
人工智能·数据挖掘·回归
ekprada25 分钟前
DAY 16 数组的常见操作和形状
人工智能·python·机器学习
用户51914958484532 分钟前
C#扩展成员全面解析:从方法到属性的演进
人工智能·aigc
柳鲲鹏34 分钟前
OpenCV: 光流法python代码
人工智能·python·opencv
金融小师妹1 小时前
基于LSTM-GARCH模型:三轮黄金周期特征提取与多因子定价机制解构
人工智能·深度学习·1024程序员节
小蜜蜂爱编程1 小时前
深度学习实践 - 使用卷积神经网络的手写数字识别
人工智能·深度学习·cnn
leiming61 小时前
深度学习日记2025.11.20
人工智能·深度学习
速易达网络1 小时前
tensorflow+yolo图片训练和图片识别系统
人工智能·python·tensorflow
智元视界1 小时前
从算法到城市智能:AI在马来西亚智慧城市建设中的系统应用
人工智能·科技·智慧城市·数字化转型·产业升级
Tezign_space2 小时前
技术方案|构建品牌KOS内容中台:三种架构模式与AI赋能实践
人工智能·架构·数字化转型·小红书·kos·内容营销·内容科技