论文阅读--Cross-view Transformers for real-time Map-view Semantic Segmentation

一种新的2D维度的bev特征提取方案,其通过引入相机先验信息(相机内参和外参)构建了一个多视图交叉注意力机制,能够将多视图特征映射为BEV特征。

cross view attention:BEV位置编码+由根据相机标定结果(内参和外参)演算得到的相机位置编码+多视图特征做attention得到

整体上文章的网络前端使用CNN作为特征抽取网络,中端使用CNN多级特征作为输入在多视图下优化BEV特征(也就是使用了级联优化),后端使用CNN形式的解码器进行输出

q:bev下加上map-view embedding进行refine

k:在多视图特征(由CNN网络得到)上也会添加camera-view的embedding进行refine

v:原多视图特征也会经过线型映射

为了感知道路的3D位置几何关系还对相机位置进行embedding(代码中为减去操作),并与上述的两种embedding进行关联

因为不知道实际的深度值,所以存在scale上的不确定性。与LSS不同,在这篇文章中并没有显式使用深度信息或者是隐式编码深度空间分布,而是将scale上的不确定性编码使用上述提到的camera-view embedding、map-view embedding和transformer网络进行学习和适应

相关推荐
剑圣土豆7 小时前
大模型LLM面试常见算法题-包括Attention和Transformer常见面试题
人工智能·深度学习·算法·自然语言处理·面试·nlp·transformer
寂然如故12 小时前
Transformer 入门案例教程(大语言模型)
深度学习·语言模型·transformer
机器学习之心14 小时前
SCI一区级 | Matlab实现BO-Transformer-LSTM时间序列预测
matlab·lstm·transformer·贝叶斯优化
byzy15 小时前
【论文笔记】BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation
论文阅读·深度学习·目标检测·计算机视觉·自动驾驶
xiandong2015 小时前
240705_昇思学习打卡-Day17-基于 MindSpore 实现 BERT 对话情绪识别
人工智能·深度学习·学习·自然语言处理·bert·transformer
幼儿园大哥~15 小时前
Pathformer: multi-scale transformer
人工智能·深度学习·transformer
李加号pluuuus16 小时前
【论文阅读】VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time
论文阅读
wbzuo18 小时前
Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method--论文笔记
论文阅读
dundunmm1 天前
论文阅读:Simple and Efficient Heterogeneous Graph Neural Network
论文阅读·人工智能·深度学习·神经网络·机器学习·transformer
selia10781 天前
论文阅读【时间序列】DSformer
论文阅读·人工智能