Nvidia GTC AI 会议：理想汽车【VLA：迈向自动驾驶物理智能体的关键一步】

Nvidia GTC AI 会议上，理想汽车介绍了内部VLA相关算法，理想在智驾新技术上的新技术探索其实比较领先，以下整理了这次介绍的相关技术点

快慢系统，国内路太多了，用云端world model闭环仿真测试
双系统遵循scaling law，半年迭代，1000W clips数据实现100公里mpi

Generalizing Motion Planners with Mixture of Experts for Autonomous Driving https://arxiv.org/pdf/2410.15774

Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving https://arxiv.org/pdf/2412.02689
实现了全国ETC，潮汐车道可变车道，待转区，积水积雪通行
hmi展示模型关注点，防止用户不信任端到端

e2e+vlm结合有几个问题：

如何让模型自己实现快慢思考，并且有更强的3D空间理解能力和行为生成能力？

基于对以上几点问题的思考，提出MindVLA，视觉语言行为大模型

将空间智能，语言智能，行为智能融合在一起，赋予系统感知，思考，适应环境能力
不只是把end2end和vla模型结合在一起，而是所有模块从新设计，3D空间编码器通过语言模型和逻辑推理结合在一起后给出合理的驾驶决策，输出一组action token(对周围环境和自身驾驶行为的编码)，最终用diffusion进一步优化出最佳轨迹

以前的方法需要监督数据(比如检测，车道线，occ等任务)，很难数据上量，3D GS可以用图片自监督，有多粒度，多尺度，有语义的特性->gaussianAD

GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

设计训练一个适合VLA的模型，稀疏化是关键（模型扩容同时不大幅提升推理负担），主要是2个维度实现稀疏化

采用moe架构：多个专家实现模型扩容，同时保证激活参数不大幅增加
- 说说deepseek大模型中的混合专家模型MoE（上-基础篇）
- 从deepseek大模型看混合专家模型MoE（下-实现篇）
sparse attention：进一步提升稀疏化率，保证车端推理效率
然后融入大量3D数据，驾驶相关图文数据，减少文史类数据比例；最后为了进一步提升模型3D空间理解和推理能力，加入未来帧预测生成和稠密深度预测等任务

VLM获得3D空间智能能力的同时，在逻辑推理方面也需要进一步提升，训练模型学习人类思考过程并自主切换快慢，分快/慢思考两部分：

虽然经过以上步骤后，得到10HZ以上推理速度还是很难，又做了大量工程优化：

针对cot，采用小词表，投机推理来大幅提升效率；
针对action token，采用并行解码，同一个transformer兼容2种推理模式，语言逻辑推理部分因果注意力机制逐字输出，action token部分通过双向注意力机制一次推理全部输出

Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback

如何让系统超过人类驾驶水平？早期智驾不能端到端，强化学习是弱监督，没有高效无损的信息传递效果会变差，并且过去都用游戏引擎真实度低且场景建模效率低，数据规模小导致最后的模型完全不可用；

两个方法解决限制：

一些相关论文

产品角度的一些应用：