COVLM-RL:利用VLM引导强化学习实现自动驾驶的关键面向对象推理

端到端自动驾驶框架在泛化能力、训练效率和可解释性方面长期面临挑战。

现有方法虽利用视觉语言模型通过大规模数据集监督学习来提升推理能力,但在新场景中往往缺乏鲁棒性;而基于强化学习的方法虽增强了适应性,却存在数据效率低下和决策过程不透明的问题。

为突破这些局限,我们提出COVLM-RL------一种融合关键对象导向推理与视觉语言模型引导强化学习的新型端到端驾驶框架。

具体而言,我们设计了一种思维链提示策略,使视觉语言模型能够对关键交通要素进行推理并生成高层次语义决策,从而将多视角视觉输入有效转化为结构化语义决策先验。

这些先验知识能降低输入维度,并将任务相关知识注入强化学习循环,从而加速训练并提升策略可解释性。然而,如何将高层次语义指导与连续的低层次控制相结合仍具挑战。

为此,我们引入一致性损失函数,促使视觉语言模型的语义规划与强化学习智能体的控制输出保持对齐,以此增强可解释性与训练稳定性。

在CARLA模拟器中进行的实验表明,COVLM-RL在已训练驾驶环境中的成功率提升30%,在未遇见过的新环境中成功率提升50%,显著体现了其强大的泛化能力。

相关推荐
砥锋2 小时前
纯NumPy手写两层GCN:从零开始理解图神经网络核心思想
机器学习
Larcher2 小时前
🔥 告别抓瞎:用 Claude Code (cc) 优雅接手与维护已有项目
javascript·机器学习·前端框架
Binary_Soul2 小时前
一文读懂:如何让 Claude Code 拥有"过目不忘"的记忆力
人工智能
黎阳之光2 小时前
黎阳之光:以视频孪生重构智慧医院信息化,打造高标项目核心竞争力
大数据·人工智能·物联网·算法·数字孪生
东风破_2 小时前
Claude Code 实战指南:像带实习生一样让 AI 帮你维护项目
人工智能
常威正在打来福2 小时前
frontend-design入门指南:OpenClaw/Claude Code/Codex 三平台安装教程
人工智能·aigc·ai编程
百度智能云技术站2 小时前
百度 Agent 安全中心:构筑企业智能体的安全底座
人工智能·安全·dubbo
TechPioneer_lp2 小时前
30 岁硕士 Linux C 开发背景,未来想去澳洲就业,研究方向该选 AI、SDN 漏洞还是 Linux 内核?
linux·人工智能·职业规划·澳洲求职
阿里云大数据AI技术2 小时前
Hologres CLI 与 Skills 担当 Agent-Ready 基础设施,共建数仓智能新生态
人工智能·agent
Terrence Shen2 小时前
大模型部署工具对比
人工智能·深度学习·计算机视觉