论文阅读--Cross-view Transformers for real-time Map-view Semantic Segmentation

一种新的2D维度的bev特征提取方案,其通过引入相机先验信息(相机内参和外参)构建了一个多视图交叉注意力机制,能够将多视图特征映射为BEV特征。

cross view attention:BEV位置编码+由根据相机标定结果(内参和外参)演算得到的相机位置编码+多视图特征做attention得到

整体上文章的网络前端使用CNN作为特征抽取网络,中端使用CNN多级特征作为输入在多视图下优化BEV特征(也就是使用了级联优化),后端使用CNN形式的解码器进行输出

q:bev下加上map-view embedding进行refine

k:在多视图特征(由CNN网络得到)上也会添加camera-view的embedding进行refine

v:原多视图特征也会经过线型映射

为了感知道路的3D位置几何关系还对相机位置进行embedding(代码中为减去操作),并与上述的两种embedding进行关联

因为不知道实际的深度值,所以存在scale上的不确定性。与LSS不同,在这篇文章中并没有显式使用深度信息或者是隐式编码深度空间分布,而是将scale上的不确定性编码使用上述提到的camera-view embedding、map-view embedding和transformer网络进行学习和适应

相关推荐
北山小恐龙10 小时前
卷积神经网络(CNN)与Transformer
深度学习·cnn·transformer
机器学习之心15 小时前
Transformer-LSTM、Transformer、CNN-LSTM、LSTM、CNN五模型多变量分类预测Matlab实现
cnn·lstm·transformer
Blossom.11815 小时前
Transformer架构优化实战:从MHA到MQA/GQA的显存革命
人工智能·python·深度学习·react.js·架构·aigc·transformer
小明_GLC15 小时前
Falcon-TST: A Large-Scale Time Series Foundation Model
论文阅读·人工智能·深度学习·transformer
没学上了21 小时前
VLM—Transformer
人工智能·深度学习·transformer
悟道心21 小时前
6. 自然语言处理NLP - 迁移学习
人工智能·transformer
fantasy_arch21 小时前
Transformer vs Stable Diffusion vs LLM模型对比
深度学习·stable diffusion·transformer
0x2111 天前
[论文阅读]Through the Stealth Lens: Rethinking Attacks and Defenses in RAG
论文阅读
Blossom.1181 天前
工业级扩散模型优化实战:从Stable Diffusion到LCM的毫秒级生成
开发语言·人工智能·python·深度学习·机器学习·stable diffusion·transformer
川西胖墩墩2 天前
团队协作泳道图制作工具 PC中文免费
大数据·论文阅读·人工智能·架构·流程图