论文阅读--Cross-view Transformers for real-time Map-view Semantic Segmentation

一种新的2D维度的bev特征提取方案,其通过引入相机先验信息(相机内参和外参)构建了一个多视图交叉注意力机制,能够将多视图特征映射为BEV特征。

cross view attention:BEV位置编码+由根据相机标定结果(内参和外参)演算得到的相机位置编码+多视图特征做attention得到

整体上文章的网络前端使用CNN作为特征抽取网络,中端使用CNN多级特征作为输入在多视图下优化BEV特征(也就是使用了级联优化),后端使用CNN形式的解码器进行输出

q:bev下加上map-view embedding进行refine

k:在多视图特征(由CNN网络得到)上也会添加camera-view的embedding进行refine

v:原多视图特征也会经过线型映射

为了感知道路的3D位置几何关系还对相机位置进行embedding(代码中为减去操作),并与上述的两种embedding进行关联

因为不知道实际的深度值,所以存在scale上的不确定性。与LSS不同,在这篇文章中并没有显式使用深度信息或者是隐式编码深度空间分布,而是将scale上的不确定性编码使用上述提到的camera-view embedding、map-view embedding和transformer网络进行学习和适应

相关推荐
智算菩萨15 小时前
AGI的定义:基于CHC认知理论的量化评估框架深度解析
论文阅读·人工智能·深度学习·ai·agi
智算菩萨15 小时前
基于多模态基础模型迈向通用人工智能:BriVL模型深度解析
论文阅读·人工智能·ai·语言模型·agi
张张123y16 小时前
知识图谱从0到1:AI应用开发的核心技术
人工智能·langchain·transformer·知识图谱
Mr.Cheng.18 小时前
【论文阅读】Hidden in plain sight:VLMs overlook their visual representations
论文阅读
张张123y19 小时前
AI Agent Memory:从理论到实战,掌握长短期记忆的核心技术【2】
人工智能·python·langchain·transformer
码农三叔2 天前
(10-3)大模型时代的人形机器人感知:多模态Transformer
深度学习·机器人·大模型·transformer·人形机器人
智算菩萨2 天前
通往AGI之路:基于性能与通用性的等级划分框架深度解析
论文阅读·人工智能·深度学习·ai·agi
xx_xxxxx_2 天前
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析4-代码架构
论文阅读·机器学习·transformer·多模态
AustinCyy2 天前
【论文笔记】LLM Evaluators Recognize and Favor Their Own Generations
论文阅读
传说故事2 天前
【论文阅读】OpenClaw-RL: Train Any Agent Simply by Talking
论文阅读·人工智能