Nvidia GTC AI 会议:理想汽车【VLA:迈向自动驾驶物理智能体的关键一步】

Nvidia GTC AI 会议上,理想汽车介绍了内部VLA相关算法,理想在智驾新技术上的新技术探索其实比较领先,以下整理了这次介绍的相关技术点

  • 快慢系统,国内路太多了,用云端world model闭环仿真测试

  • 双系统遵循scaling law,半年迭代,1000W clips数据实现100公里mpi

    Generalizing Motion Planners with Mixture of Experts for Autonomous Driving https://arxiv.org/pdf/2410.15774

    Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving https://arxiv.org/pdf/2412.02689

  • 实现了全国ETC,潮汐车道可变车道,待转区,积水积雪通行

  • hmi展示模型关注点,防止用户不信任端到端

e2e+vlm结合有几个问题:

  • 异步联合训练端到端和vlm比较困难,因为是独立模型,且频率不同
  • VLM来自开源大语言模型,使用海量2D图文数据预训练,3D空间理解和驾驶知识能力不足
  • 智驾芯片内存、带宽、算力都不如服务器GPU,如何进一步提升模型能力
  • 目前算法基本基于transformer模型,很难实现人类驾驶行为多模态性,不同人处理同一场景方式不同,并且人不同状态下驾驶能力差异,如心情

如何让模型自己实现快慢思考,并且有更强的3D空间理解能力和行为生成能力?

基于对以上几点问题的思考,提出MindVLA,视觉语言行为大模型

  • 将空间智能,语言智能,行为智能融合在一起,赋予系统感知,思考,适应环境能力
  • 不只是把end2end和vla模型结合在一起,而是所有模块从新设计,3D空间编码器通过语言模型和逻辑推理结合在一起后给出合理的驾驶决策,输出一组action token(对周围环境和自身驾驶行为的编码),最终用diffusion进一步优化出最佳轨迹

以前的方法需要监督数据(比如检测,车道线,occ等任务),很难数据上量,3D GS可以用图片自监督,有多粒度,多尺度,有语义的特性->gaussianAD

GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

设计训练一个适合VLA的模型,稀疏化是关键(模型扩容同时不大幅提升推理负担),主要是2个维度实现稀疏化

  • 采用moe架构:多个专家实现模型扩容,同时保证激活参数不大幅增加
    • 说说deepseek大模型中的混合专家模型MoE(上-基础篇)
    • 从deepseek大模型看混合专家模型MoE(下-实现篇)
  • sparse attention:进一步提升稀疏化率,保证车端推理效率
    然后融入大量3D数据,驾驶相关图文数据,减少文史类数据比例;最后为了进一步提升模型3D空间理解和推理能力,加入未来帧预测生成和稠密深度预测等任务

VLM获得3D空间智能能力的同时,在逻辑推理方面也需要进一步提升,训练模型学习人类思考过程并自主切换快慢,分快/慢思考两部分:

  • 慢思考模式:先经过思维链cot(固定且简短的cot),再输出action token
  • 快思考模式:不需要cot,直接出action token

虽然经过以上步骤后,得到10HZ以上推理速度还是很难,又做了大量工程优化:

  • 针对cot,采用小词表,投机推理来大幅提升效率;
  • 针对action token,采用并行解码,同一个transformer兼容2种推理模式,语言逻辑推理部分因果注意力机制逐字输出,action token部分通过双向注意力机制一次推理全部输出

Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback

  • 固定基座模型后,加入diffusion model输出自车和其他交通参与者轨迹(提升复杂交通场景能力),优势是根据外界输出改变输出结果(比如让车开快点)
  • 用常微分方程ODE采样器解决效率问题;
  • 增加后训练来对齐人类驾驶员,筛选大量接管数据作为人类偏好数据来微调模型

如何让系统超过人类驾驶水平?早期智驾不能端到端,强化学习是弱监督,没有高效无损的信息传递效果会变差,并且过去都用游戏引擎真实度低且场景建模效率低,数据规模小导致最后的模型完全不可用;

两个方法解决限制:

  • 端到端vla解决第一个限制
  • 结合场景重建,语义生成模型解决第二个限制
    • 生成模型泛化能力好,但不一定符合物理逻辑,重建模型可能出现空洞变形,选择真实数据的重建为基础,不同视角下添加噪声后训练生成模型恢复这些模糊视角,这样使生成模型具备多视角生成能力,再与3D重建模型联合优化后得到各个视角接近真实的3d模型
      除了以上外,效率问题做了很多优化
      ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration
      DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation
      DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
      Balanced 3DGS: Gaussian-wise Parallelism Rendering with Fine-Grained Tiling

一些相关论文

产品角度的一些应用:

  • 给一些要求,让车做出对应决策
  • 根据照片找位置
  • 去商场等地方自动泊车
相关推荐
葫三生42 分钟前
如何评价《论三生原理》在科技界的地位?
人工智能·算法·机器学习·数学建模·量子计算
m0_751336392 小时前
突破性进展:超短等离子体脉冲实现单电子量子干涉,为飞行量子比特奠定基础
人工智能·深度学习·量子计算·材料科学·光子器件·光子学·无线电电子
美狐美颜sdk5 小时前
跨平台直播美颜SDK集成实录:Android/iOS如何适配贴纸功能
android·人工智能·ios·架构·音视频·美颜sdk·第三方美颜sdk
DeepSeek-大模型系统教程5 小时前
推荐 7 个本周 yyds 的 GitHub 项目。
人工智能·ai·语言模型·大模型·github·ai大模型·大模型学习
郭庆汝5 小时前
pytorch、torchvision与python版本对应关系
人工智能·pytorch·python
小雷FansUnion7 小时前
深入理解MCP架构:智能服务编排、上下文管理与动态路由实战
人工智能·架构·大模型·mcp
资讯分享周7 小时前
扣子空间PPT生产力升级:AI智能生成与多模态创作新时代
人工智能·powerpoint
叶子爱分享8 小时前
计算机视觉与图像处理的关系
图像处理·人工智能·计算机视觉
鱼摆摆拜拜8 小时前
第 3 章:神经网络如何学习
人工智能·神经网络·学习
一只鹿鹿鹿8 小时前
信息化项目验收,软件工程评审和检查表单
大数据·人工智能·后端·智慧城市·软件工程