Nvidia GTC AI 会议:理想汽车【VLA:迈向自动驾驶物理智能体的关键一步】

Nvidia GTC AI 会议上,理想汽车介绍了内部VLA相关算法,理想在智驾新技术上的新技术探索其实比较领先,以下整理了这次介绍的相关技术点

  • 快慢系统,国内路太多了,用云端world model闭环仿真测试

  • 双系统遵循scaling law,半年迭代,1000W clips数据实现100公里mpi

    Generalizing Motion Planners with Mixture of Experts for Autonomous Driving https://arxiv.org/pdf/2410.15774

    Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving https://arxiv.org/pdf/2412.02689

  • 实现了全国ETC,潮汐车道可变车道,待转区,积水积雪通行

  • hmi展示模型关注点,防止用户不信任端到端

e2e+vlm结合有几个问题:

  • 异步联合训练端到端和vlm比较困难,因为是独立模型,且频率不同
  • VLM来自开源大语言模型,使用海量2D图文数据预训练,3D空间理解和驾驶知识能力不足
  • 智驾芯片内存、带宽、算力都不如服务器GPU,如何进一步提升模型能力
  • 目前算法基本基于transformer模型,很难实现人类驾驶行为多模态性,不同人处理同一场景方式不同,并且人不同状态下驾驶能力差异,如心情

如何让模型自己实现快慢思考,并且有更强的3D空间理解能力和行为生成能力?

基于对以上几点问题的思考,提出MindVLA,视觉语言行为大模型

  • 将空间智能,语言智能,行为智能融合在一起,赋予系统感知,思考,适应环境能力
  • 不只是把end2end和vla模型结合在一起,而是所有模块从新设计,3D空间编码器通过语言模型和逻辑推理结合在一起后给出合理的驾驶决策,输出一组action token(对周围环境和自身驾驶行为的编码),最终用diffusion进一步优化出最佳轨迹

以前的方法需要监督数据(比如检测,车道线,occ等任务),很难数据上量,3D GS可以用图片自监督,有多粒度,多尺度,有语义的特性->gaussianAD

GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

设计训练一个适合VLA的模型,稀疏化是关键(模型扩容同时不大幅提升推理负担),主要是2个维度实现稀疏化

  • 采用moe架构:多个专家实现模型扩容,同时保证激活参数不大幅增加
    • 说说deepseek大模型中的混合专家模型MoE(上-基础篇)
    • 从deepseek大模型看混合专家模型MoE(下-实现篇)
  • sparse attention:进一步提升稀疏化率,保证车端推理效率
    然后融入大量3D数据,驾驶相关图文数据,减少文史类数据比例;最后为了进一步提升模型3D空间理解和推理能力,加入未来帧预测生成和稠密深度预测等任务

VLM获得3D空间智能能力的同时,在逻辑推理方面也需要进一步提升,训练模型学习人类思考过程并自主切换快慢,分快/慢思考两部分:

  • 慢思考模式:先经过思维链cot(固定且简短的cot),再输出action token
  • 快思考模式:不需要cot,直接出action token

虽然经过以上步骤后,得到10HZ以上推理速度还是很难,又做了大量工程优化:

  • 针对cot,采用小词表,投机推理来大幅提升效率;
  • 针对action token,采用并行解码,同一个transformer兼容2种推理模式,语言逻辑推理部分因果注意力机制逐字输出,action token部分通过双向注意力机制一次推理全部输出

Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback

  • 固定基座模型后,加入diffusion model输出自车和其他交通参与者轨迹(提升复杂交通场景能力),优势是根据外界输出改变输出结果(比如让车开快点)
  • 用常微分方程ODE采样器解决效率问题;
  • 增加后训练来对齐人类驾驶员,筛选大量接管数据作为人类偏好数据来微调模型

如何让系统超过人类驾驶水平?早期智驾不能端到端,强化学习是弱监督,没有高效无损的信息传递效果会变差,并且过去都用游戏引擎真实度低且场景建模效率低,数据规模小导致最后的模型完全不可用;

两个方法解决限制:

  • 端到端vla解决第一个限制
  • 结合场景重建,语义生成模型解决第二个限制
    • 生成模型泛化能力好,但不一定符合物理逻辑,重建模型可能出现空洞变形,选择真实数据的重建为基础,不同视角下添加噪声后训练生成模型恢复这些模糊视角,这样使生成模型具备多视角生成能力,再与3D重建模型联合优化后得到各个视角接近真实的3d模型
      除了以上外,效率问题做了很多优化
      ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration
      DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation
      DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
      Balanced 3DGS: Gaussian-wise Parallelism Rendering with Fine-Grained Tiling

一些相关论文

产品角度的一些应用:

  • 给一些要求,让车做出对应决策
  • 根据照片找位置
  • 去商场等地方自动泊车
相关推荐
美酒没故事°16 小时前
Open WebUI安装指南。搭建自己的自托管 AI 平台
人工智能·windows·ai
云烟成雨TD16 小时前
Spring AI Alibaba 1.x 系列【6】ReactAgent 同步执行 & 流式执行
java·人工智能·spring
AI攻城狮16 小时前
用 Obsidian CLI + LLM 构建本地 RAG:让你的笔记真正「活」起来
人工智能·云原生·aigc
鸿乃江边鸟16 小时前
Nanobot 从onboard启动命令来看个人助理Agent的实现
人工智能·ai
lpfasd12316 小时前
基于Cloudflare生态的应用部署与开发全解
人工智能·agent·cloudflare
俞凡16 小时前
DevOps 2.0:智能体如何接管故障修复和基础设施维护
人工智能
comedate16 小时前
[OpenClaw] GLM 5 关于电影 - 人工智能 - 的思考
人工智能·电影评价
财迅通Ai16 小时前
6000万吨产能承压 卫星化学迎来战略窗口期
大数据·人工智能·物联网·卫星化学
liliangcsdn16 小时前
Agent Memory智能体记忆系统的示例分析
数据库·人工智能·全文检索
GISer_Jing16 小时前
Page-agent MCP结构
前端·人工智能