【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations

1 基本信息

院校:德国的图宾根大学

网站:https://www.katrinrenz.de/plant

2 论文背景

2.1 现有问题

现在的基于学习的方法使用高精地图和BEV,认为准确的(达到像素级的pixel-level)场景理解是鲁棒的输出的关键。recovering pixel-level BEV information from sensor inputs。

2.2 作者的想法

作者认为这么丰富的信息是不必要的,仅仅使用低维的(物体级的object-level)特征------周车和routing信息即可。

3 解决办法

3.1 Tokenization

tokenization是指从场景如何获取token的过程。作者用的carla,细节略。直接看的得到的token。

Vt是车辆信息,St是routing信息。包含类型z,相对于自车的bouding box的位置x和y,长宽h和w,方向fai,一共6维。

3.2 Token Embeddings

将tokens输入给一个线性层,原来的6维变成H(hidden)维,再分别加入偏置ev和es,得到e。

3.3 自车规划任务

输入是3.2的线性化后的Vt+St和一个cls token(H维),transformer采用了BERT架构,输出采用GRU,通过自回归的方式输出Wx2的轨迹点。

3.4 周车预测任务

将transformer的输出h(每个周车都有h),经过一个线性层linear layer预测速度/位置/方向等。

3.5 loss设计

自车规划任务:自车轨迹的l1loss。

周车预测任务:交叉熵损失。

相关推荐
aicat_cn6 小时前
从预测未来到控制未来:机器人世界模型全景综述
ai·大模型
千桐科技8 小时前
qKnow 智能体构建平台开源版 2.1.1 正式发布!优化非结构化抽取、知识库召回,全面升级系统稳定性与交互体验
大模型·llm·工作流·qknow·智能体构建平台
生成论实验室10 小时前
算力时代结束,判断力时代开始
人工智能·深度学习·机器人·自动驾驶·gpu算力
codefan※11 小时前
一键部署私人 LLM:Ollama + Docker 极简指南
运维·docker·容器·大模型·llm·本地部署·ollama
龙骑士baby11 小时前
重建 AI 认知第 3 篇:Prompt Engineering——怎么让 AI 听懂你的话
ai·大模型·llm·prompt
猫先生Mr.Mao12 小时前
一文梳理主流 LLM 架构技术演进
人工智能·架构·大模型·llm·transformer
程序员cxuan13 小时前
把 Codex 用到极致
ai·大模型·codex
战族狼魂13 小时前
Claude 大模型在真实业务场景中的落地应用指南
人工智能·chatgpt·大模型
Resistance丶未来14 小时前
魔芋AI:构建安全、可控、合规的大模型生产力枢纽
gpt·安全·大模型·claude·gemini·企业ai·魔芋ai
TMT星球15 小时前
比亚迪发布中国首款4nm制程智驾芯片,布局高等级自动驾驶
人工智能·机器学习·自动驾驶