【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations

1 基本信息

院校:德国的图宾根大学

网站:https://www.katrinrenz.de/plant

2 论文背景

2.1 现有问题

现在的基于学习的方法使用高精地图和BEV,认为准确的(达到像素级的pixel-level)场景理解是鲁棒的输出的关键。recovering pixel-level BEV information from sensor inputs。

2.2 作者的想法

作者认为这么丰富的信息是不必要的,仅仅使用低维的(物体级的object-level)特征------周车和routing信息即可。

3 解决办法

3.1 Tokenization

tokenization是指从场景如何获取token的过程。作者用的carla,细节略。直接看的得到的token。

Vt是车辆信息,St是routing信息。包含类型z,相对于自车的bouding box的位置x和y,长宽h和w,方向fai,一共6维。

3.2 Token Embeddings

将tokens输入给一个线性层,原来的6维变成H(hidden)维,再分别加入偏置ev和es,得到e。

3.3 自车规划任务

输入是3.2的线性化后的Vt+St和一个cls token(H维),transformer采用了BERT架构,输出采用GRU,通过自回归的方式输出Wx2的轨迹点。

3.4 周车预测任务

将transformer的输出h(每个周车都有h),经过一个线性层linear layer预测速度/位置/方向等。

3.5 loss设计

自车规划任务:自车轨迹的l1loss。

周车预测任务:交叉熵损失。

相关推荐
TGITCIC1 小时前
BERT与Transformer到底选哪个-下部
人工智能·gpt·大模型·aigc·bert·transformer
TGITCIC21 小时前
BERT与Transformer到底选哪个-上部
人工智能·gpt·大模型·aigc·bert·transformer
地平线开发者21 小时前
【征程 6】工具链 VP 示例为什么能运行
算法·自动驾驶
白云千载尽1 天前
AI时代下的编程——matlib与blender快捷编程化、初始MCP
java·人工智能·大模型·llm·blender
寻丶幽风1 天前
论文阅读笔记——ReconDreamer
论文阅读·笔记·自动驾驶·3dgs·世界模型·闭环仿真
GIS数据转换器2 天前
在机器人和无人机时代,测绘人的出路在哪里?
大数据·人工智能·信息可视化·机器人·自动驾驶·汽车·无人机
laopeng3013 天前
Spring AI ToolCalling 扩展模型能力边界
java·人工智能·大模型·spring ai
放羊郎3 天前
OpenCV、YOLO与大模型的区别与关系
人工智能·opencv·yolo·大模型
姚家湾4 天前
MCP 学习笔记(1)
大模型·mcp
地平线开发者4 天前
精度调优|conv+depth2space 替换 resize 指导
算法·自动驾驶