COVLM-RL:利用VLM引导强化学习实现自动驾驶的关键面向对象推理

端到端自动驾驶框架在泛化能力、训练效率和可解释性方面长期面临挑战。

现有方法虽利用视觉语言模型通过大规模数据集监督学习来提升推理能力,但在新场景中往往缺乏鲁棒性;而基于强化学习的方法虽增强了适应性,却存在数据效率低下和决策过程不透明的问题。

为突破这些局限,我们提出COVLM-RL------一种融合关键对象导向推理与视觉语言模型引导强化学习的新型端到端驾驶框架。

具体而言,我们设计了一种思维链提示策略,使视觉语言模型能够对关键交通要素进行推理并生成高层次语义决策,从而将多视角视觉输入有效转化为结构化语义决策先验。

这些先验知识能降低输入维度,并将任务相关知识注入强化学习循环,从而加速训练并提升策略可解释性。然而,如何将高层次语义指导与连续的低层次控制相结合仍具挑战。

为此,我们引入一致性损失函数,促使视觉语言模型的语义规划与强化学习智能体的控制输出保持对齐,以此增强可解释性与训练稳定性。

在CARLA模拟器中进行的实验表明,COVLM-RL在已训练驾驶环境中的成功率提升30%,在未遇见过的新环境中成功率提升50%,显著体现了其强大的泛化能力。

相关推荐
阿里云大数据AI技术6 小时前
阿里云 EMR AI 助手正式发布:从问答工具到全栈智能运维助手
运维·人工智能
Larcher6 小时前
从零搭建 MCP 服务——让 AI 拥有无限扩展能力
人工智能·程序员
zzzzzz3106 小时前
你的 AI 写的 React 烂透了?这个 8000+ Star 的开源工具能揪出 90% 的「Agent 屎山」
人工智能
小星AI6 小时前
MCP协议超详细教程,从入门到实战
人工智能
小星AI7 小时前
Kimi Code CLI 超详细教程,附源码
人工智能·agent
牧艺7 小时前
Cursor Rules / Skills 分层设计:让 Agent 像「团队新同事」
前端·人工智能·cursor
shepherd1117 小时前
一文带你掌握 LLM、Token、Context、Prompt、RAG、MCP、Skill、Agent 等 AI 核心概念
人工智能·后端·ai编程
小林ixn8 小时前
MCP 保姆级入门指南:AI 的“万能充电口”到底怎么玩?
人工智能
转转技术团队9 小时前
没有测试的核心代码,怎么交给 AI 重构
人工智能