论文阅读--Cross-view Transformers for real-time Map-view Semantic Segmentation

一种新的2D维度的bev特征提取方案,其通过引入相机先验信息(相机内参和外参)构建了一个多视图交叉注意力机制,能够将多视图特征映射为BEV特征。

cross view attention:BEV位置编码+由根据相机标定结果(内参和外参)演算得到的相机位置编码+多视图特征做attention得到

整体上文章的网络前端使用CNN作为特征抽取网络,中端使用CNN多级特征作为输入在多视图下优化BEV特征(也就是使用了级联优化),后端使用CNN形式的解码器进行输出

q:bev下加上map-view embedding进行refine

k:在多视图特征(由CNN网络得到)上也会添加camera-view的embedding进行refine

v:原多视图特征也会经过线型映射

为了感知道路的3D位置几何关系还对相机位置进行embedding(代码中为减去操作),并与上述的两种embedding进行关联

因为不知道实际的深度值,所以存在scale上的不确定性。与LSS不同,在这篇文章中并没有显式使用深度信息或者是隐式编码深度空间分布,而是将scale上的不确定性编码使用上述提到的camera-view embedding、map-view embedding和transformer网络进行学习和适应

相关推荐
机器学习之心2 小时前
贝叶斯优化Transformer融合支持向量机多变量时间序列预测,Matlab实现
支持向量机·matlab·transformer·多变量时间序列预测
layneyao3 小时前
DeepSeek模型架构详解:从Transformer到MoE
深度学习·架构·transformer
开心星人4 小时前
【论文阅读】UNIT: Backdoor Mitigation via Automated Neural Distribution Tightening
论文阅读
regret~4 小时前
【论文笔记】ViT-CoMer
论文阅读
勤劳的进取家4 小时前
论文阅读:Self-Collaboration Code Generation via ChatGPT
论文阅读·chatgpt
好评笔记16 小时前
Meta的AIGC视频生成模型——Emu Video
人工智能·深度学习·机器学习·aigc·transformer·校招·面试八股
jzwei02319 小时前
Transformer Decoder-Only 算力FLOPs估计
人工智能·深度学习·transformer
胡玉洋1 天前
从新手到高手:全面解析 AI 时代的「魔法咒语」——Prompt
人工智能·ai·prompt·transformer·协议
机器学习之心1 天前
贝叶斯优化Transformer融合支持向量机多变量回归预测,附相关性气泡图、散点密度图,Matlab实现
支持向量机·transformer·多变量回归预测·贝叶斯优化t·相关性气泡图
静心问道1 天前
Donut:无OCR文档理解Transformer
深度学习·ocr·transformer