OpenEMMA: 基于多模态大语言模型的端到端开源自动驾驶框架

OpenEMMA: 基于多模态大语言模型的端到端开源自动驾驶框架

创新点

OpenEMMA 将前置摄像头图像和车辆历史文本状态作为输入。驾驶任务被构建为视觉问答(VQA)问题,利用思维链推理来指导模型生成关键物体的详细描述、行为洞察和元驾驶决策。这些决策由模型直接推断得出,为生成路径点提供了必要的上下文。为了减轻多模态大语言模型在目标检测任务中已知的局限性,OpenEMMA 集成了经过微调的 YOLO 版本,该版本针对自动驾驶场景中的 3D 边界框预测进行了专门优化,显著提高了检测精度。此外,通过利用多模态大语言模型预先存在的世界知识,OpenEMMA 可以为场景理解等感知任务生成可解释、人类可读的输出,从而提高了透明度和可用性

方法

它以车辆历史驾驶状态 T 和视觉驾驶场景 I 为输入,预测未来轨迹 P,并检测交通参与者

为了可解释化:生成两个中间表示:速度向量S,表示车辆速度大小

曲率向量k,表示车辆的转向率

速度表示踩油门的程度,而曲率表示转动方向盘的幅度

然后利用公式计算出下一个轨迹坐标

阶段1

将驾驶场景的前置摄像头图像和本车过去 5 秒的历史数据(速度和曲率)作为预训练多模态大语言模型的输入

设计特定任务的提示,引导多模态大语言模型对当前本车驾驶场景进行全面推理:

1.意图指令:根据当前场景明确本车的预期动作,例如是继续沿着车道左转、右转还是直行。此外,它还指定车辆是应保持当前速度、减速还是加速。

2.场景描述:根据交通信号灯、其他车辆或行人的运动以及车道标记,对驾驶场景进行简洁描述

3.主要物体:识别本车驾驶员应注意的道路使用者,在驾驶场景图像中指定它们的位置。对于每个道路使用者,简要描述其当前动作,并解释其存在对本车决策过程的重要性

阶段2

预测:通过结合思维链推理过程和本车历史状态,促使多模态大语言模型生成未来 T 秒的速度S和曲率C,然后对这些预测进行积分,计算最终轨迹T

视觉专家增强的目标检测

现成的预训练多模态大语言模型由于空间推理能力的限制,难以实现高质量的检测。为了克服这一挑战,在不额外微调多模态大语言模型的情况下实现高检测精度,我们将一个外部的视觉专业模型集成到 OpenEMMA 中,有效地解决了检测任务

相当于原有大模型+yolo3d

OpenEMMA 专门使用前置摄像头进行目标检测,并处理单帧数据,而不是连续的帧序列。这将任务置于基于单目摄像头的 3D 目标检测范畴内,选择的YOLO3D34

yolo

YOLO3D 是一种两阶段的 3D 目标检测方法,它强制实施 2D - 3D 边界框一致性约束。具体来说,它假设每个 3D 边界框都紧密包含在其相应的 2D 边界框内。该方法首先预测 2D 边界框,然后估计每个检测到的物体的 3D 尺寸和局部方向。3D 边界框的七个参数 ------ 中心位置 tx、ty、tz,尺寸 dx、dy、dz 以及偏航角 θ------ 是基于 2D 边界框和 3D 估计联合计算得出的

相关推荐
冬奇Lab2 分钟前
Agent系列(三):Plan-and-Solve——先想清楚,再动手
人工智能·llm·agent
冬奇Lab5 分钟前
每日一个开源项目 #110:ai-engineering-from-scratch - 从零构建 AI 工程全栈能力
人工智能·深度学习·llm
夜郎king6 分钟前
基于 Trae Solo 的 Ant 遗留项目编译方案 —— 以 BaseformEpanet 为例
人工智能·trae solo·水力模型·java水力模型编译
测试员周周8 分钟前
【Appium 系列】第20节-测试项目结构设计 — 从脚本到工程
人工智能·数据挖掘·回归·单元测试·appium·测试用例·测试覆盖率
IT_陈寒13 分钟前
SpringBoot自动配置偷偷给我埋了个坑
前端·人工智能·后端
一切皆是因缘际会13 分钟前
AI 从 “模仿智能” 到 “重构世界” 的范式跃迁
大数据·人工智能·深度学习·重构·架构
Are_You_Okkk_15 分钟前
无需配环境、不受设备限!MonkeyCode重新定义研发
大数据·人工智能·开源·团队开发·ai编程
kyraaa116 分钟前
618智能灭蚊器什么牌子好?电灭蚊灯哪个牌子好用?综合测评希亦、绳池等10大热门灭蚊灯品牌!
大数据·人工智能·python
deephub17 分钟前
推理 → 行动 → 观察:用 LangChain + Python 实现一个智能体循环
人工智能·python·langchain·大语言模型·agent
生成论实验室20 分钟前
Token即事件:Transformer为何是“事件-关系网络”的最佳实现——兼论大语言模型如何从“概率鹦鹉”进化为“认知主体”
人工智能·深度学习·语言模型·agi·安全架构