小鹏汽车在 VLA(视觉 - 语言 - 动作)算法领域的最新进展和模型结构细节,体现了其在端到端智驾系统 和车端大模型部署上的技术突破。以下是基于 2025 年 9 月最新公开信息的深度解析:
一、最新进展:全场景 VLA 系统量产落地与跨代升级
-
首次 OTA 全量推送与功能强化
2025 年 9 月 9 日,小鹏 G7 Ultra 车型完成全球首个全场景 VLA 系统的 OTA 全量推送,核心升级包括:- 专家级风险预判:在无保护转向、盲区路口等场景中,通过时空推理提前规划防御性策略。例如,系统可预判对向车辆可能的抢道行为,提前调整车速并预留安全距离,实现 "无感避险"。
- 行业首创人机共驾模式:当 NGP(导航辅助驾驶)激活且时速低于 130km/h 时,驾驶员可通过轻转方向盘或踩加速踏板介入驾驶,系统在 0.5 秒内无缝恢复 NGP,支持低速跟车、匝道汇入等灵活协作。
- 车位到车位记忆泊车:支持任意车位实时记录与停车场 3D 建模,车辆可自动泊入斜列式车位、断头路车位等非标准车位,识别精度达 ±15cm,支持斜角≤45° 的复杂场景。
- 主动安全强化:AES 自动紧急转向避让功能在紧急碰撞危险且制动空间不足时,可自动发起转向避险并减速,对异形障碍物(如倒地的外卖箱)的识别准确率较传统方案提升 30%。
-
年底跨代更新计划与算力支撑
小鹏计划于 2025 年底对 Ultra 版车型进行 VLA 跨代更新,目标是实现十倍于现役智驾系统的体验跃升,核心依托:- 云端 720 亿参数基座模型:通过万卡规模计算集群训练,数据规模从 2000 万 Clips 视频(每条 30 秒)扩展至 2 亿 Clips,支持复杂场景的长时序推理。
- 自研图灵 AI 芯片的算力霸权:3 颗图灵芯片提供 2250TOPS 有效算力(等效 9 颗英伟达 Orin-X),支持车端大模型实时运行。例如,在双臂协作任务中,动作生成延迟低至 20ms,推理速度达 6Hz,同时保持 97.1% 的任务成功率。
- Token 压缩技术突破:与北大联合研发的 FastDriveVLA 框架,通过基于图像复原的 token 剪枝技术,将视觉 token 数量从 3249 条压缩至 812 条,FLOPs 降低 7.5 倍,同时保持碰撞率等关键指标优于未剪枝基线。
二、模型结构细节:云端蒸馏与车端异构计算
1. 混合架构设计
小鹏 VLA 采用云端基座模型 + 车端蒸馏模型的混合架构,实现 "超大规模训练" 与 "实时推理" 的平衡:
-
云端基座模型 :
- 参数规模:720 亿参数,基于大语言模型(LLM)骨干网络,整合视觉理解、链式推理(CoT)和动作生成能力。
- 训练策略:通过对比学习和掩码预测预训练,使用 2000 万 Clips 视频数据(含多摄像头、激光雷达、毫米波雷达数据),并通过强化学习(RL)优化复杂场景决策。
-
车端蒸馏模型 :
- 参数规模:约 30 亿参数(云端的 1/24),通过知识蒸馏保留云端模型 90% 以上的推理能力,同时支持 INT8 量化和剪枝,适配图灵芯片的实时推理需求。
- 轻量化技术:采用 LoRA(低秩适应)和动态路由机制,在消费级 GPU 上实现快速微调,例如在多目标清理任务中,微调后的模型成功率比扩散模型提升 20.4%。
2. 核心模块技术细节
-
视觉编码器:
- 多传感器融合:采用 ViT(视觉 Transformer)与 CNN 混合架构,处理 12 路摄像头、激光雷达和毫米波雷达数据,通过 BEV(鸟瞰图)特征融合生成稠密的 3D 环境感知图。
- 动态 token 压缩:结合 FastDriveVLA 框架的 ReconPruner 剪枝器,通过 MAE(掩码自动编码器)风格的像素重建任务,优先保留前景区域 token(如车辆、行人、交通标志),抑制背景冗余信息。
-
语言模型:
- 指令解析与推理:基于自研 LLM(可能为 Llama 2 或类似架构),解析自然语言指令(如 "避开施工路段")并生成语义控制逻辑,支持多轮对话与上下文理解。
- 跨模态对齐:通过交叉注意力机制,将视觉特征(如 "红色信号灯")与语言语义(如 "停车")动态关联,实现指令与场景的精准匹配。
-
动作生成器:
- 端到端控制:采用扩散模型或序列到序列学习,直接生成连续动作序列(如方向盘角度、油门 / 刹车力度),支持机械臂协同与实时避障。例如,在家庭服务场景中,模型可通过 "将杯子从桌子移到架子" 的指令,自动规划路径并调整抓取力度。
- 物理引擎验证:生成的动作序列需通过 Simulink 等物理引擎验证轨迹可行性,确保在动态环境中的安全性。
3. 多模态融合机制
- 时空推理模块 :
结合 Transformer 解码器与 LSTM,对多帧视觉数据进行时序建模,预测未来 5 秒内的场景变化(如车辆变道、行人横穿),支持复杂路口的博弈决策。 - 对抗式训练策略 :
在训练中引入对抗式前景 - 背景重建,强制模型区分前景(如障碍物)与背景(如建筑物),避免 token 剪枝时误删关键信息。例如,ReconPruner 通过同时重建前景和背景区域,提升 token 筛选的准确性。
4. 硬件协同优化
- 图灵芯片的 DSA 架构 :
采用 40 核处理器、2xNPU 神经网络处理单元和专用内存控制器,算力利用率达 100%,远超通用芯片的 30-40%。例如,在多摄像头输入场景中,芯片可并行处理视觉特征提取与语言推理,降低延迟。 - 分布式计算框架 :
两颗图灵芯片负责智驾 VLA 系统,一颗搭配高通 8295P 处理座舱 VLM(视觉 - 语言模型),实现 "大脑 + 小脑" 的协同工作。例如,AR-HUD 的坐姿自适应调节与路怒情绪互动功能,由座舱芯片独立处理,不影响智驾系统的实时性。
三、技术挑战与行业竞争
-
核心挑战
- 数据闭环效率:尽管小鹏构建了 29.3 亿公里实车日志与生成式仿真数据的闭环,但真实场景长尾数据(如极端天气、罕见交通事件)的采集仍需依赖用户反馈,可能影响模型迭代速度。
- 实时性与泛化性平衡:复杂模型(如 720 亿参数云端模型)难以在边缘设备实现毫秒级响应,而轻量化模型对未训练过的环境适应性不足。例如,Token 压缩技术在提升速度的同时,可能导致部分边缘场景的语义丢失。
- 可解释性与安全性:黑箱模型难以定位错误根源(如视觉误判或指令误解),需结合符号化规则(如碰撞检测模块)提升可靠性。例如,小鹏的混合架构中,端到端模型生成的动作仍需通过符号化安全校验。
-
行业竞争态势
随着华为乾昆 ADS 4.0、理想 VLM 司机大模型、蔚来 NWM 世界模型等竞品的下半年推送,小鹏的 "十倍体验" 宣言面临挑战。其技术负责人强调,图灵芯片的超高算力与云端大模型的持续迭代是支撑 VLA 性能跃迁的关键,而 FastDriveVLA 等创新技术则是差异化竞争的核心。
四、总结
小鹏汽车的 VLA 算法已从实验室走向规模化应用,其核心优势在于车端大模型的实时部署能力 、云端基座模型的持续进化 ,以及多模态交互的场景化创新。通过自研芯片、Token 压缩技术和跨代更新计划,小鹏正推动具身智能从概念验证迈向工业级落地。然而,其技术路线仍需面对数据隐私、长尾场景泛化等挑战,而行业对 "十倍体验" 的实际效果验证,将成为 2025 年下半年的关注焦点。