技术栈

自动驾驶与多模态大模型交叉

m0_65010824
13 小时前
论文阅读·人工智能·自动驾驶·端到端自动驾驶·vla4ad·自动驾驶与多模态大模型交叉
Vision-Language-Action 模型在自动驾驶中的应用(VLA4AD)自动驾驶技术的核心诉求是让车辆在复杂动态的交通环境中,实现感知、决策与控制的闭环协同。传统模块化方案通过拆分感知、预测、规划、控制等独立模块实现功能,但模块间的信息割裂导致其在长尾场景(如突发的救护车避让、道路施工临时管制)和人机交互场景中表现脆弱。近年来,多模态大语言模型(MLLM)的爆发式发展,推动了视觉 - 语言 - 动作(Vision-Language-Action, VLA)范式的出现 —— 这种将视觉感知、自然语言理解与控制指令融合于单一模型的架构,为解决自动驾驶的 “可解释性” 与 “动作闭
我是有底线的