MPDrive:利用基于标记的提示学习提高自动驾驶的空间理解能力

MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving

25年4月来自南方科技大学、百度、英国 KCL和琶洲实验室(广东 AI 和数字经济实验室)

自动驾驶视觉问答(AD-VQA)旨在根据给定的驾驶场景图像回答与感知、预测和规划相关的问题,严重依赖于模型的空间理解能力。先前的作品通常通过坐标的文本表示来表达空间信息,导致视觉坐标表示和文本描述之间存在语义差距。这种疏忽阻碍了空间信息的准确传输,增加了表达负担。为了解决这个问题,我们提出了一种新的基于标记的提示学习框架(MPDrive),该框架通过简洁的视觉标记表示空间坐标,确保语言表达的一致性,并提高ADVQA中视觉感知和空间表达的准确性。具体来说,我们通过聘请检测专家用数字标签覆盖对象区域来创建标记图像,将复杂的文本坐标生成转换为简单的基于文本的视觉标记预测。此外,我们将原始图像和标记图像融合为场景级特征,并将其与检测先验相结合,以推导出实例级特征。通过结合这些特征,我们构建了双粒度视觉提示,以激发LLM的空间感知能力。对DriveLM和CODA-LM数据集的广泛实验表明,MPDrive实现了最先进的性能,特别是在需要复杂空间理解的情况下。


核心问题

现有自动驾驶视觉问答(AD-VQA)中,多模态大语言模型(MLLMs)空间理解能力不足

  • 传统方法 :用文本描述空间坐标(如 (x,y)),导致视觉坐标表示与文本语义存在鸿沟

  • 后果:坐标文本表达复杂,增加模型负担,降低感知与规划的准确性。


创新方案:MPDrive框架

提出基于视觉标记(Marker)的提示学习框架 ,核心思想是将坐标生成转化为索引预测

  1. 视觉标记生成

    • 使用检测专家(如StreamPETR)定位交通对象,生成带数字标签的半透明区域(图1)。

    • 示例:在车辆中心标注 k=1,用半透明掩码标识边界。

    • 优势 :将复杂坐标预测简化为文本索引预测(如输出 k=1 而非 (x,y)),避免语义歧义。

  2. 双粒度特征融合

    • 场景级特征:融合原始图像与标记图像,保留全局空间关系。

    • 实例级特征:通过掩码平均池化(Mask Average Pooling)提取对象级细节。

    • 提示生成 :结合双粒度特征生成视觉提示(T_sT_i),输入LLM增强空间感知。

  3. 关键技术模块

    • Marker ControlNet (MCNet)

      冻结原始视觉编码器,通过零初始化线性层逐步融合标记图像信息(公式1),避免覆盖原始特征。


    • PSPL模块

      整合场景级与实例级提示,提升细粒度空间理解(图2)。


实验验证

数据集与指标
  • 数据集:DriveLM(多视图)、CODA-LM(单视图)。

  • 指标

    • 语言质量:BLEU-4、ROUGE_L、CIDEr、METEOR。

    • 空间感知:匹配度(Match,预测坐标与真值距离<16像素的比例)、准确率(Accuracy)。

关键结果
  1. SOTA性能 (表1-2):


    • DriveLM :Match 13.43 (↑82% vs InternVL-2),Accuracy 85.18

    • CODA-LM :区域感知任务中车辆类精度 79.48 ,VRU类 70.00

  2. 消融实验(表3-4):


    • 视觉标记:Match从7.59→11.89,但语言指标波动(需MCNet平衡)。

    • MCNet:提升语言一致性(BLEU-4 52.56),但轻微牺牲空间精度。

    • 实例级提示 :双粒度融合后Match达13.43,综合性能最优。

    • 模型无关性:在LLaMA-Adapter上应用MPDrive,Match从1.48→10.05。

  3. 定性对比(图3):


    • MPDrive准确定位目标(如行人、车辆),而InternVL-2坐标偏移显著。

    • 复杂场景中,MPDrive正确预测碰撞风险(如"急右转"),基线模型误判。


贡献总结

  1. 创新框架

    首次用视觉标记桥接坐标与语言描述,简化空间预测任务。

  2. 双粒度提示

    MCNet + PSPL实现场景与实例级空间感知联合优化。

  3. 强泛化性

    在DriveLM/CODA-LM上全面超越SOTA,尤其空间相关任务(Match↑82%)。


局限与未来方向

  1. 依赖检测专家

    检测误差会传播至后续模块(表6:DETR3D vs. StreamPETR影响精度)。


  2. 长时序感知不足

    未解决跨帧动态场景理解(如车辆运动轨迹)。

  3. 计算效率

    多视图输入需处理1,536个token(表5:压缩至384 token时性能下降)。

未来工作:探索时序标记融合、轻量化设计,以及端到端联合训练检测专家。


实用意义

MPDrive为自动驾驶提供可解释的空间推理框架,通过视觉标记显著提升VQA可靠性,推动人车交互与安全决策发展。代码与数据未公开,但方法论可扩展至其他空间敏感任务(如机器人导航)。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!

相关推荐
致Great2 小时前
MCP出现的意义是什么?让 AI 智能体更模块化
大数据·人工智能·rag
沉到海底去吧Go2 小时前
【工具教程】识别PDF中文字内容,批量识别文字并保存到Excel表格中的操作步骤和方法
人工智能·pdf·excel·pdf识别改名·pdf图片区域是被改名·pdf读取内容改名·pdf提取内容导出表格
Wilber的技术分享2 小时前
【机器学习实战笔记 12】集成学习:AdaBoost算法
人工智能·笔记·算法·决策树·机器学习·分类·集成学习
小和尚同志3 小时前
在 Dify 中使用 DeepWiki 官方提供的 MCP 服务
人工智能·aigc
only-lucky3 小时前
vtk和opencv和opengl直接的区别是什么?
人工智能·opencv·计算机视觉
acstdm3 小时前
DAY 35 模型可视化与推理
人工智能·python
19893 小时前
【Dify精讲】第12章:性能优化策略与实践
人工智能·python·深度学习·性能优化·架构·flask·ai编程
金融小师妹3 小时前
基于LSTM-GARCH混合模型的“获利了结”量化解析:黄金单日1.27%跌幅的技术性归因
大数据·人工智能·算法
jndingxin4 小时前
OpenCV CUDA模块设备层-----GPU上执行线程安全的 “原子取最大值” 操作函数
人工智能·opencv·计算机视觉
快手技术4 小时前
效果&成本双突破!快手提出端到端生成式推荐系统OneRec!
人工智能·深度学习·大模型·推荐算法