【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations

1 基本信息

院校:德国的图宾根大学

网站:https://www.katrinrenz.de/plant

2 论文背景

2.1 现有问题

现在的基于学习的方法使用高精地图和BEV,认为准确的(达到像素级的pixel-level)场景理解是鲁棒的输出的关键。recovering pixel-level BEV information from sensor inputs。

2.2 作者的想法

作者认为这么丰富的信息是不必要的,仅仅使用低维的(物体级的object-level)特征------周车和routing信息即可。

3 解决办法

3.1 Tokenization

tokenization是指从场景如何获取token的过程。作者用的carla,细节略。直接看的得到的token。

Vt是车辆信息,St是routing信息。包含类型z,相对于自车的bouding box的位置x和y,长宽h和w,方向fai,一共6维。

3.2 Token Embeddings

将tokens输入给一个线性层,原来的6维变成H(hidden)维,再分别加入偏置ev和es,得到e。

3.3 自车规划任务

输入是3.2的线性化后的Vt+St和一个cls token(H维),transformer采用了BERT架构,输出采用GRU,通过自回归的方式输出Wx2的轨迹点。

3.4 周车预测任务

将transformer的输出h(每个周车都有h),经过一个线性层linear layer预测速度/位置/方向等。

3.5 loss设计

自车规划任务:自车轨迹的l1loss。

周车预测任务:交叉熵损失。

相关推荐
带娃的IT创业者8 小时前
本地AI的觉醒:GitNexus如何让GenAI从云端走向你的口袋
人工智能·大模型·边缘计算·开源项目·genai·本地ai·gitnexus
codefan※11 小时前
day05-llm-sampling-params
人工智能·大模型·llm·prompt工程·top-p·temperature·ai应用开发
是Yu欸12 小时前
从 Prompt 到 WebUI:基于 SenseNova U1 封装一个图文技术博客生成工具
大模型·llm·prompt·webui·moe·sensenova u1·商汤科技
qq_5255137515 小时前
第七章 大模型学习(六) Evaluating the fine-tuned LLM and Conclusion
python·学习·语言模型·大模型
是Yu欸16 小时前
CC-Switch 零基础保姆级教程1(2026 最新版)
网络·人工智能·网络协议·http·大模型·claude·claude desktop
蓝桉~MLGT17 小时前
Ai-Agent学习历程—— 阶段2——LangChain Core(基本调用、tools、简单上下文等)
学习·大模型·agent
搞科研的小刘选手19 小时前
【人工智能方向专题研讨会】第二届商业生成式人工智能国际学术会议(GAIB 2026)
人工智能·计算机·大模型·区块链·智能·商业·经管
这是谁的博客?20 小时前
大模型分布式训练技术深度解析:从 ZeRO 到 3D 并行的全面指南
分布式·ai·大模型·分布式训练·deepspeed·fsdp·zero
带娃的IT创业者20 小时前
本地化AI的觉醒:从GitHub热门项目看端侧大模型的未来
人工智能·后端·大模型·github·端侧大模型·本地化ai
Mininglamp_271820 小时前
在Mac上跑大模型,MLX 不是终点
大模型·apple silicon·mlx·端侧推理·激活量化