MTR++论文阅读

https://zhuanlan.zhihu.com/p/654070149

文章亮点:

  1. Dense Future Prediction for All Agent:将预测的结果也encode起来,用于平衡障碍物之间的预测结果。不过在infer的时候这一部分不会进行
  2. 用数据集聚类获得query轨迹点(goal 点):将goal点也进行Transformer,并且让上一帧模型的结果用于下一帧的模型推理,可以使模型的推理更加具有连续性
  3. MTR是有agent视角来做坐标系的,MTR++是由主车视角来做坐标系的。
  4. MTR++中,对于intention query(goal点),也是转换到主车坐标系,同时会对所有障碍物的query一起进行编码,考虑障碍物之间的交互性。
相关推荐
sca1p311 天前
新南威尔士大学 LiM
论文阅读·人工智能·加密流量分类
m0_650108241 天前
Lift, Splat, Shoot:自动驾驶多视图相机的 BEV 语义表示学习
论文阅读·自动驾驶·数据驱动·lss·纯视觉bev感知·bev 语义分割·可解释的端到端轨迹规划
m0_650108241 天前
Sparse4D v3:端到端 3D 检测与跟踪的技术突破
论文阅读·自动驾驶·sparse4d v3·端到端3d感知框架·去噪思想·端到端跟踪·纯视觉感知
m0_650108242 天前
VADv2:基于概率规划的端到端矢量化自动驾驶
论文阅读·自动驾驶·端到端矢量化·驾驶场景中的不确定性·概率场建模·多模态编码·vadv2
提娜米苏2 天前
[论文笔记] End-to-End Audiovisual Fusion with LSTMs
论文阅读·深度学习·lstm·语音识别·论文笔记·多模态
m0_650108242 天前
DiffusionDrive:面向端到端自动驾驶的截断扩散模型
论文阅读·扩散模型·端到端自动驾驶·阶段扩散策略·高级联扩散解码器·cvpr2025
提娜米苏2 天前
[论文笔记] 基于 LSTM 的端到端视觉语音识别 (End-to-End Visual Speech Recognition with LSTMs)
论文阅读·深度学习·计算机视觉·lstm·语音识别·视觉语音识别
m0_650108242 天前
BEVDet:鸟瞰图视角下的高性能多相机 3D 目标检测
论文阅读·bevdet·bev视角·3d目标检测范式·多任务统一框架·bev语言分割
STLearner3 天前
AI论文速读 | U-Cast:学习高维时间序列预测的层次结构
大数据·论文阅读·人工智能·深度学习·学习·机器学习·数据挖掘
youcans_3 天前
【DeepSeek 论文精读】15. DeepSeek-V3.2:开拓开源大型语言模型新前沿
论文阅读·人工智能·语言模型·智能体·deepseek