自动驾驶中基于潜在世界模型学习多概率决策(LatentDriver)

Learning Multiple Probabilistic Decisions from Latent World Model in Autonomous Driving

问题

图a是将模型与规划器结合,但是这样对不确定性的考虑不全面,尤其是在涉及到自车与环境交互时的动作

图b是将世界模型的知识隐式地转移到规划器中,并对它们进行联合优化。这些方法未能充分发挥自回归模型的潜力

第一个问题是对不确定性的考虑不全面,尤其是在涉及到自车与环境交互时的动作。驾驶场景本质上是随机的,决策不应被视为单模态问题。可能存在多种有效的选择,每个选择代表分布的不同模式。另一个挑战是自欺问题。

第二个问题是自欺问题
自欺问题:过度依赖于基于历史动作的预测(例如:车辆前方突然出现障碍物,自回归世界模型依据之前的行驶动作预测车辆可以继续按原路线行驶,但规划器需要根据当前观测到的障碍物来决策,若规划器受到模型预测的干扰,忽视当前观测,就会导致危险,这就是自欺问题的体现)

创新点

核心观点是:假设动作和状态的分布以及它们的组合是多概率的

世界模型和规划器之间的交互是双向且完全随机的,最终动作是从它们的混合分布中推导出来的(图c)

具体来说,我们引入了多概率规划器(MPP),它通过混合高斯分布 [18,19] 将自车的动作建模为一个随机过程。MPP 采用多层 Transformer 结构,每一层都根据潜在世界模型(LWM)的输出优化动作分布。因此,它自然地捕捉到了自车的随机动作。为了缓解联合优化过程中的自欺问题,从 MPP 中间层采样得到的动作被用作真实动作的估计,减少了最终决策对历史动作的依赖

具体内容

LatentDriver框架:原始观测首先被矢量化,然后输入到场景编码器中。中间动作分布由多概率规划器(MPP)的中间层生成。

潜在世界模型(LWM)在接收到中间动作后,预测下一个潜在状态并将其表示为一种分布。

然后,动作分布和潜在状态分布通过 MPP 的后续层进行组合,形成一个混合分布,最终的控制信号由此导出

问题公式化

这段写的真挺好

输入表示和上下文编码

BERT作为场景编码器,处理一系列观测 O 1 : t O_{1:t} O1:t,得到类令牌和环境令牌的集合h

潜在特征的世界模型

潜在世界模型(LWM)旨在使用动作令牌和先前的潜在状态令牌(均由一个接受( A ˉ \bar{A} Aˉ和h的适配器生成)来预测下一个潜在状态令牌

适配器

动作令牌

潜在状态令牌

潜在世界模型

多概率规划器

将路标点视为动作空间,真实动作表示为 a ^ = [ a ^ x , a ^ y , a ^ y a w ] ∈ R 3 \hat{a} = [\hat{a}_x, \hat{a}y, \hat{a}{yaw}] \in \mathbb{R}^3 a^=[a^x,a^y,a^yaw]∈R3,其中yaw表示车辆的偏航角,用于描述车辆的行驶方向

MPA模块

损失函数

两个损失函数

一个是利用KL三度使得世界模型的适配器输出的潜在状态分布 ( s ^ i ) (\hat{s}{i}) (s^i)与估计的潜在状态分布 ( s ‾ i ) (\overline{s}{i}) (si)之间的 KL 散度,通过最小化这个散度,世界模型可以学习到更接近真实潜在状态的分布,提高预测的准确性。

另一个负对数似然损失来最大化自车真实动作 a ^ \hat{a} a^的可能性

相关推荐
IT_陈寒4 分钟前
JavaScript 性能优化实战:我通过这7个技巧将页面加载速度提升了65%
前端·人工智能·后端
骄傲的心别枯萎7 分钟前
RV1126 NO.47:RV1126+OPENCV对视频流进行视频腐蚀操作
人工智能·opencv·计算机视觉·音视频·rv1126
骄傲的心别枯萎8 分钟前
RV1126 NO.48:RV1126+OPENCV在视频中添加时间戳
人工智能·opencv·计算机视觉·音视频·视频编解码·rv1126
沉迷单车的追风少年8 分钟前
Diffusion Models与视频超分(3): 解读当前最快和最强的开源模型FlashVSR
人工智能·深度学习·计算机视觉·aigc·音视频·视频生成·视频超分
CV实验室9 分钟前
CV论文速递:覆盖视频理解与生成、跨模态与定位、医学与生物视觉、图像数据集等方向(11.03-11.07)
人工智能·计算机视觉·音视频
这张生成的图像能检测吗12 分钟前
StreamingT2V:从文本生成一致、动态和可扩展的长视频
人工智能·计算机视觉·视觉语言模型·视频生成
aneasystone本尊12 分钟前
重温 Java 21 之向量 API
人工智能
青衫码上行1 小时前
【Java Web学习 | 第七篇】JavaScript(1) 基础知识1
java·开发语言·前端·javascript·学习
fs哆哆3 小时前
PDFsharp库的加密功能-学习笔记
笔记·学习
得贤招聘官6 小时前
精准招聘新纪元:AI 重构选才逻辑
人工智能