COVLM-RL:利用VLM引导强化学习实现自动驾驶的关键面向对象推理

端到端自动驾驶框架在泛化能力、训练效率和可解释性方面长期面临挑战。

现有方法虽利用视觉语言模型通过大规模数据集监督学习来提升推理能力,但在新场景中往往缺乏鲁棒性;而基于强化学习的方法虽增强了适应性,却存在数据效率低下和决策过程不透明的问题。

为突破这些局限,我们提出COVLM-RL------一种融合关键对象导向推理与视觉语言模型引导强化学习的新型端到端驾驶框架。

具体而言,我们设计了一种思维链提示策略,使视觉语言模型能够对关键交通要素进行推理并生成高层次语义决策,从而将多视角视觉输入有效转化为结构化语义决策先验。

这些先验知识能降低输入维度,并将任务相关知识注入强化学习循环,从而加速训练并提升策略可解释性。然而,如何将高层次语义指导与连续的低层次控制相结合仍具挑战。

为此,我们引入一致性损失函数,促使视觉语言模型的语义规划与强化学习智能体的控制输出保持对齐,以此增强可解释性与训练稳定性。

在CARLA模拟器中进行的实验表明,COVLM-RL在已训练驾驶环境中的成功率提升30%,在未遇见过的新环境中成功率提升50%,显著体现了其强大的泛化能力。

相关推荐
财富自由且长命百岁20 小时前
移动端老兵转型端侧 AI:第一周,我跑通了 ResNet50 推理
机器学习
美酒没故事°20 小时前
Open WebUI安装指南。搭建自己的自托管 AI 平台
人工智能·windows·ai
云烟成雨TD20 小时前
Spring AI Alibaba 1.x 系列【6】ReactAgent 同步执行 & 流式执行
java·人工智能·spring
简简单单做算法20 小时前
基于GA遗传优化的Transformer-LSTM网络模型的时间序列预测算法matlab性能仿真
深度学习·matlab·lstm·transformer·时间序列预测·ga遗传优化·电池剩余寿命预测
AI攻城狮20 小时前
用 Obsidian CLI + LLM 构建本地 RAG:让你的笔记真正「活」起来
人工智能·云原生·aigc
鸿乃江边鸟20 小时前
Nanobot 从onboard启动命令来看个人助理Agent的实现
人工智能·ai
lpfasd12320 小时前
基于Cloudflare生态的应用部署与开发全解
人工智能·agent·cloudflare
俞凡20 小时前
DevOps 2.0:智能体如何接管故障修复和基础设施维护
人工智能
comedate21 小时前
[OpenClaw] GLM 5 关于电影 - 人工智能 - 的思考
人工智能·电影评价
财迅通Ai21 小时前
6000万吨产能承压 卫星化学迎来战略窗口期
大数据·人工智能·物联网·卫星化学