COVLM-RL：利用VLM引导强化学习实现自动驾驶的关键面向对象推理

renhongxia12026-02-05 10:31

端到端自动驾驶框架在泛化能力、训练效率和可解释性方面长期面临挑战。

现有方法虽利用视觉语言模型通过大规模数据集监督学习来提升推理能力，但在新场景中往往缺乏鲁棒性；而基于强化学习的方法虽增强了适应性，却存在数据效率低下和决策过程不透明的问题。

为突破这些局限，我们提出COVLM-RL------一种融合关键对象导向推理与视觉语言模型引导强化学习的新型端到端驾驶框架。

具体而言，我们设计了一种思维链提示策略，使视觉语言模型能够对关键交通要素进行推理并生成高层次语义决策，从而将多视角视觉输入有效转化为结构化语义决策先验。

这些先验知识能降低输入维度，并将任务相关知识注入强化学习循环，从而加速训练并提升策略可解释性。然而，如何将高层次语义指导与连续的低层次控制相结合仍具挑战。

为此，我们引入一致性损失函数，促使视觉语言模型的语义规划与强化学习智能体的控制输出保持对齐，以此增强可解释性与训练稳定性。

在CARLA模拟器中进行的实验表明，COVLM-RL在已训练驾驶环境中的成功率提升30%，在未遇见过的新环境中成功率提升50%，显著体现了其强大的泛化能力。