minddrive

MindDrive：基于在线强化学习的自动驾驶视觉 - 语言 - 动作模型自动驾驶（AD）需在动态复杂环境中完成感知、决策与动作执行的闭环流程。传统端到端框架虽整合了感知、预测与规划模块，但缺乏常识推理和因果推断能力，难以应对真实交通场景的不确定性。随着视觉语言模型（VLM）在理解与推理能力上的突破，视觉 - 语言 - 动作（VLA）范式逐渐成为端到端自动驾驶的研究热点，其核心目标是将复杂交通场景理解转化为自车的行驶轨迹。

MindDrive：融合世界模型与视觉语言模型的端到端自动驾驶框架端到端自动驾驶（E2E-AD）已成为自动驾驶领域的主流研究范式，其中轨迹规划是决定系统性能的核心环节。现有研究主要分为两类：一类以轨迹生成为核心，专注于生成高质量轨迹但决策机制简单；另一类以轨迹选择为核心，具备多维度评估能力但生成能力不足。为此，本文提出 MindDrive 框架，创新性地整合了高质量轨迹生成与全面决策推理，构建了 “假设仿真 - 候选生成 - 多目标权衡” 的结构化推理范式。该框架通过基于世界动作模型（WAM）的未来感知轨迹生成器（FaTG）实现基于自车状态的 “假设” 仿真，预测未来场

我是有底线的