FASIONAD:自适应反馈的类人自动驾驶中快速和慢速思维融合系统——论文阅读

《FASIONAD FAst and Slow FusION Thinking Systems for Human-Like Autonomous Driving with Adaptive Feedback》 2024年11月发表,来自清华、早稻田大学、明尼苏达大学、多伦多大学、厦门大学马来西亚分校、电子科大(成都)、智平方科技和河南润泰数字科技的论文。

确保安全、舒适和高效的导航是自动驾驶系统发展和可靠性的基础。虽然在大型数据集上训练的端到端模型在标准驾驶情况下表现良好,但它们往往难以应对罕见的长尾事件。大型语言模型(LLM)的最新进展带来了推理能力的提高,但它们的高计算要求使自动驾驶汽车的实时决策和精确规划变得复杂。本文介绍了FASIONAD,这是一个受认知模型"思考,快与慢"启发的创新双系统框架。"快速系统通过快速、数据驱动的路径规划有效地管理日常导航任务,而慢速系统则在陌生或具有挑战性的场景中解决复杂的推理和决策问题。由分数分布和反馈引导的动态切换机制允许快速和慢速系统之间的无缝转换。来自快速系统的视觉提示有助于在慢速系统中进行类似人类的推理,这反过来又提供了高质量的反馈,以增强快速系统的决策能力。为了评估我们的方法,我们引入了一个来自nuScenes数据集的新基准,旨在区分快速和慢速场景。FASIONAD为这一基准设定了新的标准,开创了一个区分自动驾驶中快速和慢速认知过程的框架。这种双系统方法为创造更具适应性和人性化的自动驾驶提供了一个有前景的方向。

目录

[1. 研究背景与动机](#1. 研究背景与动机)

[2. 核心贡献](#2. 核心贡献)

[3. 方法论详解](#3. 方法论详解)

[4. 实验结果](#4. 实验结果)

[5. 创新点与优势](#5. 创新点与优势)

[6. 局限与未来方向](#6. 局限与未来方向)

[7. 总结](#7. 总结)


1. 研究背景与动机
  • 问题 :现有端到端(E2E)自动驾驶模型在常规场景表现良好,但在长尾事件(罕见复杂场景)中鲁棒性不足;大型语言模型(LLMs)虽具备推理能力,但计算开销大且难以实时决策。

  • 灵感来源 :基于心理学双过程理论(《思考,快与慢》),模仿人类"快思考"(直觉反应)和"慢思考"(深度推理)的认知模式,提出双系统框架。


2. 核心贡献
  1. 双系统架构

    • 快速路径(Fast Pathway):基于BEV(鸟瞰图)实时生成轨迹,依赖奖励模型(Reward Model)评估候选路径的安全性和效率。

    • 慢速路径(Slow Pathway):利用视觉语言模型(VLMs)进行复杂场景分析,生成高级元动作(如变道、停车)和规划状态。

    • 动态切换机制 :通过不确定性估计(基于拉普拉斯分布)和奖励分布,自适应激活慢速路径。

  2. 自适应反馈机制

    • 视觉提示(Visual Prompt):将轨迹投影到前视摄像头,增强VLM的直觉推理。

    • 信息瓶颈(Information Bottleneck):过滤无关信息,提升特征对齐。

  3. 新基准测试:基于nuScenes数据集构建区分快/慢场景的评估基准。


3. 方法论详解
  • 快速路径

    • 输入:多视角图像+导航指令。

    • 输出:轨迹点序列(BEV坐标)。

    • 关键技术

      • 轨迹生成器:生成多模态候选轨迹。

      • 奖励模型:综合安全、舒适、效率和经济性(如油耗)指标。

      • 损失函数:联合优化规划、检测和分割任务(公式4)。

  • 慢速路径

    • 输入:多视角图像+BEV空间信息。

    • 输出:规划状态(二进制向量)和元动作(如"停车""让行")。

    • 关键技术

      • 问答(QA)任务:设计五类问题(场景分析、交通标志识别等)驱动VLM推理。

      • 数据自动标注:利用快速路径的检测结果和LVLM生成QA对。

      • 奖励引导的VLM调优:结合MLE损失和强化学习(PPO)优化生成质量。

  • 融合机制

    • 动态切换:基于轨迹预测的不确定性(公式8)和奖励阈值,触发慢速路径。

    • 反馈融合:通过跨注意力机制将慢速路径的元动作嵌入到快速路径的轨迹生成中。


4. 实验结果
  • 数据集:nuScenes(开放环评估)和CARLA(闭环评估)。

  • 关键指标

    • 开放环:轨迹L2误差(0.69m)和碰撞率(0.18%)显著优于GenAD、VAD等基线。

    • 闭环:驾驶评分(DS 64.83%)和路径完成率(RC 89.04%)领先。

  • 消融实验

    • 信息瓶颈与高级动作:二者协同提升性能(L2误差降低8%)。

    • 提示策略:完整提示(Full.P)效果最佳,验证结构化提示的重要性。


5. 创新点与优势
  • 理论创新:首次将心理学双过程理论引入自动驾驶,解决长尾事件与实时决策的矛盾。

  • 技术突破

    • VLM与规划融合:通过QA任务和视觉提示实现可解释推理。

    • 轻量化动态切换:基于拉普拉斯分布的不确定性估计,平衡效率与安全。

  • 工程价值:在保持实时性(6.9 FPS)的同时,碰撞率降低10-15%。


6. 局限与未来方向
  • 局限性

    • 对极端天气或非结构化道路(如乡村)的泛化能力待验证。

    • VLM的推理延迟可能影响实时性。

  • 未来工作

    • 扩展多传感器融合(LiDAR、雷达)。

    • 探索基于人类反馈的强化学习(RLHF)。

    • 优化多车协同决策。


7. 总结

FASIONAD通过双系统架构自适应反馈机制,在复杂驾驶场景中实现了类人决策的平衡,显著提升了安全性和适应性。其核心是将快速响应与深度推理结合,为自动驾驶系统的可解释性和鲁棒性提供了新思路。未来在泛化能力和多模态融合方面的探索值得期待。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!

相关推荐
Ayakanoinu4 小时前
【论文阅读】BEVFormer
论文阅读
聚客AI6 小时前
ChatGPT到Claude全适配:跨模型Prompt高级设计规范与迁移技巧
人工智能·机器学习·语言模型·自然语言处理·langchain·transformer·llama
远瞻。7 小时前
【论文阅读】人脸修复(face restoration ) 不同先验代表算法整理2
论文阅读·算法
Mr数据杨10 小时前
【Dv3Admin】插件 dv3admin_chatgpt 集成大语言模型智能模块
人工智能·语言模型·chatgpt
zm-v-1593043398610 小时前
AI 赋能 Copula 建模:大语言模型驱动的相关性分析革新
人工智能·语言模型·自然语言处理
开放知识图谱12 小时前
论文浅尝 | HOLMES:面向大语言模型多跳问答的超关系知识图谱方法(ACL2024)
人工智能·语言模型·自然语言处理·知识图谱
weixin_4445793013 小时前
基于Llama3的开发应用(二):大语言模型的工业部署
人工智能·语言模型·自然语言处理
暖季啊14 小时前
分割一切(SAM) 论文阅读:Segment Anything
论文阅读·人工智能·神经网络
远瞻。14 小时前
【论文阅读】人脸修复(face restoration ) 不同先验代表算法整理
论文阅读·算法