【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations

EEPI2023-11-06 9:45

1 基本信息

院校：德国的图宾根大学

现在的基于学习的方法使用高精地图和BEV，认为准确的（达到像素级的pixel-level）场景理解是鲁棒的输出的关键。recovering pixel-level BEV information from sensor inputs。

作者认为这么丰富的信息是不必要的，仅仅使用低维的（物体级的object-level）特征------周车和routing信息即可。

tokenization是指从场景如何获取token的过程。作者用的carla，细节略。直接看的得到的token。

Vt是车辆信息，St是routing信息。包含类型z，相对于自车的bouding box的位置x和y，长宽h和w，方向fai，一共6维。

将tokens输入给一个线性层，原来的6维变成H（hidden）维，再分别加入偏置ev和es，得到e。

输入是3.2的线性化后的Vt+St和一个cls token（H维），transformer采用了BERT架构，输出采用GRU，通过自回归的方式输出Wx2的轨迹点。

将transformer的输出h（每个周车都有h），经过一个线性层linear layer预测速度/位置/方向等。

自车规划任务：自车轨迹的l1loss。

周车预测任务：交叉熵损失。