论文阅读--Cross-view Transformers for real-time Map-view Semantic Segmentation

一种新的2D维度的bev特征提取方案,其通过引入相机先验信息(相机内参和外参)构建了一个多视图交叉注意力机制,能够将多视图特征映射为BEV特征。

cross view attention:BEV位置编码+由根据相机标定结果(内参和外参)演算得到的相机位置编码+多视图特征做attention得到

整体上文章的网络前端使用CNN作为特征抽取网络,中端使用CNN多级特征作为输入在多视图下优化BEV特征(也就是使用了级联优化),后端使用CNN形式的解码器进行输出

q:bev下加上map-view embedding进行refine

k:在多视图特征(由CNN网络得到)上也会添加camera-view的embedding进行refine

v:原多视图特征也会经过线型映射

为了感知道路的3D位置几何关系还对相机位置进行embedding(代码中为减去操作),并与上述的两种embedding进行关联

因为不知道实际的深度值,所以存在scale上的不确定性。与LSS不同,在这篇文章中并没有显式使用深度信息或者是隐式编码深度空间分布,而是将scale上的不确定性编码使用上述提到的camera-view embedding、map-view embedding和transformer网络进行学习和适应

相关推荐
大数据追光猿1 小时前
【大模型技术】LlamaFactory 的原理解析与应用
人工智能·python·机器学习·docker·语言模型·github·transformer
紫雾凌寒17 小时前
计算机视觉|Swin Transformer:视觉 Transformer 的新方向
人工智能·深度学习·计算机视觉·transformer·vit·swintransformer·视频理解
梦想是成为算法高手1 天前
带你从入门到精通——自然语言处理(五. Transformer中的自注意力机制和输入部分)
pytorch·python·深度学习·自然语言处理·transformer·位置编码·自注意力机制
lczdyx2 天前
Transformer 代码剖析9 - 解码器模块Decoder (pytorch实现)
人工智能·pytorch·python·深度学习·transformer
乔大将军2 天前
transformer架构解析{掩码,(自)注意力机制,多头(自)注意力机制}(含代码)-3
人工智能·深度学习·transformer
江木1232 天前
论文阅读和代码实现EfficientDet(BiFPN)
论文阅读
Ayakanoinu2 天前
【论文阅读】Universal Adversarial Attacks for Visual Odometry Systems
论文阅读
HollowKnightZ2 天前
论文阅读笔记:UniFace: Unified Cross-Entropy Loss for Deep Face Recognition
论文阅读·笔记
HollowKnightZ2 天前
论文阅读笔记:ArcFace: Additive Angular Margin Loss for Deep Face Recognition
论文阅读·笔记
Luis Li 的猫猫2 天前
突破光学成像局限:全视野光学血管造影技术新进展
论文阅读·图像处理·人工智能·算法·目标检测