【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations

1 基本信息

院校:德国的图宾根大学

网站:https://www.katrinrenz.de/plant

2 论文背景

2.1 现有问题

现在的基于学习的方法使用高精地图和BEV,认为准确的(达到像素级的pixel-level)场景理解是鲁棒的输出的关键。recovering pixel-level BEV information from sensor inputs。

2.2 作者的想法

作者认为这么丰富的信息是不必要的,仅仅使用低维的(物体级的object-level)特征------周车和routing信息即可。

3 解决办法

3.1 Tokenization

tokenization是指从场景如何获取token的过程。作者用的carla,细节略。直接看的得到的token。

Vt是车辆信息,St是routing信息。包含类型z,相对于自车的bouding box的位置x和y,长宽h和w,方向fai,一共6维。

3.2 Token Embeddings

将tokens输入给一个线性层,原来的6维变成H(hidden)维,再分别加入偏置ev和es,得到e。

3.3 自车规划任务

输入是3.2的线性化后的Vt+St和一个cls token(H维),transformer采用了BERT架构,输出采用GRU,通过自回归的方式输出Wx2的轨迹点。

3.4 周车预测任务

将transformer的输出h(每个周车都有h),经过一个线性层linear layer预测速度/位置/方向等。

3.5 loss设计

自车规划任务:自车轨迹的l1loss。

周车预测任务:交叉熵损失。

相关推荐
骚戴28 分钟前
2025企业级架构演进:重构 Java/Python 的 RAG 与 Agent 系统的六种核心策略
java·人工智能·大模型·llm·api
Godspeed Zhao30 分钟前
自动驾驶中的传感器技术85——Sensor Fusion(8)
人工智能·机器学习·自动驾驶
熊猫钓鱼>_>1 小时前
「源力觉醒 创作者计划」_巅峰对话:文心4.5 vs DeepSeek R1 vs 通义Qwen3.0 谁最符合中国人体验?
ai·大模型·llm·多模态·deepseek-r1·文心4.5·qwen3.0
山顶夕景2 小时前
【Agent】自动化深度研究智能体搭建
大模型·llm·agent·deepresearch
名誉寒冰3 小时前
AI大模型-Prompt工程参考学习
人工智能·学习·大模型·prompt
Godspeed Zhao3 小时前
自动驾驶中的传感器技术86——Sensor Fusion(9)
人工智能·机器学习·自动驾驶
骚戴3 小时前
AI架构指南:大型语言模型 (LLM) API 的通用集成与企业级配置(2025年)
人工智能·大模型·llm·gateway·api
yuanmenghao4 小时前
自动驾驶中间件iceoryx 构建指南
中间件·自动驾驶·软件构建·iceoryx
Dev7z13 小时前
非线性MPC在自动驾驶路径跟踪与避障控制中的应用及Matlab实现
人工智能·matlab·自动驾驶
WWZZ202518 小时前
快速上手大模型:实践(Grounded-SAM2与Depth Anything V2)
大模型·sam·slam·多模态·具身智能·dino·grounded-sam2