- 自动驾驶背景调研
在当前的技术格局中,存在着两种主导范式。一方面是基于鸟瞰图(BEV)表征的专用模型。
鸟瞰图(Bird's-Eye-View, 简称 BEV)表征,简单来说就是"上帝视角"或"网格俯视图"。在自动驾驶中,车载摄像头、激光雷达(LiDAR)等传感器是从车辆四周的"透视视角"(Perspective View)来捕捉世界的(即前视、后视、侧视等,图像中会有近大远小的透视变形)。而BEV 表征,则是通过算法将这些来自不同方向、不同角度的透视图像,转换并融合到一个统一的、从上往下俯视的二维网格空间中。
传统的 BEV 模型虽然在处理纯驾驶任务(如车道线检测、车辆追踪)时很强,但它被限制在了"驾驶"这个狭窄的圈子里。当前的自动驾驶研究之所以迫切希望利用非驾驶领域的数据(如互联网上的海量图片、视频、文本等),主要是为了解决以下几个核心痛点:
1、 解决长尾效应(Corner Cases)
驾驶数据集(如 nuScenes、Waymo)无论怎么采集,都只能覆盖常见的马路场景。但现实世界充满了未知和意外。比如空气中的塑料袋可以撞但行人不能撞。
2、获得常识与推理能力(Common Sense)
举个例子:路边有一个拍球的小孩在快速靠近马路时人类驾驶员会减速,因为我们有常识:球如果滚到马路上,小孩大概率会冲出来捡。 传统的 BEV 模型只把小孩当成一个"静止的立方体障碍物",无法预测这种潜在危险。通过在包含大量人类行为、故事、因果关系的互联网文本和视频(非驾驶数据)上进行预训练,Vision-Language-Action (VLA) 模型可能能够习得人类社会的"常识"。它能理解"小狗可能会乱跑"、"救护车闪烁代表紧急情况"等逻辑,从而做出更聪明的驾驶决策。
3、另外希望互联网海量数据能给更大的模型一个好的初始化来迁移到驾驶上,弥补驾驶数据的数量稀缺导致的过拟合/reward hacking 等问题。
作为应对,视觉-语言-动作(VLA)模型已成为一种极具前景的替代方案。通过利用在互联网级数据上预训练的大规模视觉-语言模型(VLM),VLA 模型拥有显著更大的模型体量,并在规模扩展(scaling)方面具备更强大的内在潜力。
然而 VLA 会面临监督赤字问题:VLA 模型具有极高的模型规模,而与之相对应的监督信号却极其稀疏。
- 关于 VLA 的 tokenizer
VLA 顾名思义,输入模态有语言、图像和动作。
语言的 tokenizer 还是使用 BPE tokenizer。由于 VLA 从 VLM 训练而来,其实现风格也根据图片的 tokenizer 分为基于 VQ 还是基于 ViT 两类: VLA(VQ)方法将图像转化为离散的视觉标记,适用于 Emu3 风格的骨干网络; VLA(ViT)方法提取连续特征,适用于 Qwen2.5-VL 风格的骨干网络。
动作 tokenzier 就更多样了
| 类别 | 代表 tokenizer / 表达 | 近半年占比估计 | 结论 |
|---|---|---|---|
| 连续动作头 / flow / diffusion,无显式 action tokenizer | learnable action queries、flow matching decoder、diffusion action head | 40--50% | 正在变主流,原因是驾驶轨迹连续、物理约束强,离散 token 容易损失几何精度 |
| BEV/grid/numeric/trajectory token | BEV grid token、log-coordinate token、k-means motion primitive、metric-aligned numeric token | 30--40% | 自动驾驶里最常见的"离散 trajectory tokenizer"路线 |
| FAST / FAST+ | Frequency-space Action Sequence Tokenization | 10--20% | 有出现,但更多是从机器人 VLA 借用,不是 AD 专属主流 |
| VQ/VQGAN/VQ-VAE codebook | learned trajectory/dynamics/world token codebook | 10--20% | 常用于 dynamics / world / scene token,作为最终 action tokenizer 相对少 |
| 纯文本/JSON 坐标输出 | LLM 原生 tokenizer 直接生成坐标文本 | 明显下降 | 可解释但慢,数值精度和稳定性差 |
- 近期工作
GPT 推荐的 2026 H1 最值得重点看的是 UniDriveVLA、SpanVLA、VECTOR-Drive、MindVLA-U1/SI/DIAL、DriveVLA-W0。它们基本覆盖了当前自动驾驶 VLA 的三种连续 action head 路线:
- learnable action query regression:Reasoning-VLA、VLADriver-RAG、CriticVLA 等。
- action-token autoregressive decoding:DriveVLA-W0、OpenVLA、RT-2、FAST / \\pi_0-FAST 等。
- flow-matching action expert / flow head:UniDriveVLA、SpanVLA、VECTOR-Drive、MindVLA-U1、SI、DIAL、SAMoE-VLA 等。
- AR proposal + continuous generative refinement:ChainFlow-VLA。