自动驾驶与多模态大模型交叉

Vision-Language-Action 模型在自动驾驶中的应用（VLA4AD）自动驾驶技术的核心诉求是让车辆在复杂动态的交通环境中，实现感知、决策与控制的闭环协同。传统模块化方案通过拆分感知、预测、规划、控制等独立模块实现功能，但模块间的信息割裂导致其在长尾场景（如突发的救护车避让、道路施工临时管制）和人机交互场景中表现脆弱。近年来，多模态大语言模型（MLLM）的爆发式发展，推动了视觉 - 语言 - 动作（Vision-Language-Action, VLA）范式的出现 —— 这种将视觉感知、自然语言理解与控制指令融合于单一模型的架构，为解决自动驾驶的 “可解释性” 与 “动作闭

我是有底线的