【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations

1 基本信息

院校:德国的图宾根大学

网站:https://www.katrinrenz.de/plant

2 论文背景

2.1 现有问题

现在的基于学习的方法使用高精地图和BEV,认为准确的(达到像素级的pixel-level)场景理解是鲁棒的输出的关键。recovering pixel-level BEV information from sensor inputs。

2.2 作者的想法

作者认为这么丰富的信息是不必要的,仅仅使用低维的(物体级的object-level)特征------周车和routing信息即可。

3 解决办法

3.1 Tokenization

tokenization是指从场景如何获取token的过程。作者用的carla,细节略。直接看的得到的token。

Vt是车辆信息,St是routing信息。包含类型z,相对于自车的bouding box的位置x和y,长宽h和w,方向fai,一共6维。

3.2 Token Embeddings

将tokens输入给一个线性层,原来的6维变成H(hidden)维,再分别加入偏置ev和es,得到e。

3.3 自车规划任务

输入是3.2的线性化后的Vt+St和一个cls token(H维),transformer采用了BERT架构,输出采用GRU,通过自回归的方式输出Wx2的轨迹点。

3.4 周车预测任务

将transformer的输出h(每个周车都有h),经过一个线性层linear layer预测速度/位置/方向等。

3.5 loss设计

自车规划任务:自车轨迹的l1loss。

周车预测任务:交叉熵损失。

相关推荐
楚国的小隐士2 分钟前
在AI时代,如何从0接手一个项目?
java·ai·大模型·编程·ai编程·自闭症·自闭症谱系障碍·神经多样性
●VON3 小时前
四大AI生图工具横评:GPT Image 2 一骑绝尘!但Gemini的免费策略才是真正的王炸
人工智能·gpt·chatgpt·大模型·image
星辰徐哥3 小时前
AI辅助编程入门:大模型写代码靠谱吗
人工智能·ai·大模型·编程
知行产研4 小时前
300台验证+原生定义!雷沃×易控智驾,重新定义矿山无人运输新标准。
人工智能·自动驾驶
星创易联5 小时前
从“能跑”到“敢跑”车载通信,正在成为智驾竞争的决胜关键
人工智能·自动驾驶
千桐科技10 小时前
qKnow 智能体构建平台开源版 2.1.0 正式发布:AI编排能力重磅升级,打造一站式私有化智能平台
人工智能·开源·大模型·ai应用·qknow·智能体构建平台·ai编排
绵满11 小时前
"OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender" 论文笔记
大模型·推荐系统
绿蕉12 小时前
端到端自动驾驶:系统架构的演进与未来
人工智能·系统架构·自动驾驶
__WanG12 小时前
Claude Code 多模型网关部署教程:从零实现多厂商大模型并行调度
ai·大模型·ai编程
成旭先生13 小时前
【2026】企业工商照面信息查询:深入了解企业的33项核心数据
大数据·大模型·geo