使用零样本LLM在现实世界环境中推广端到端自动驾驶——论文阅读

《Generalizing End-To-End Autonomous Driving In Real-World Environments Using Zero-Shot LLMs》 2024年12月发表，来自纽约stony brook大学、UIC和桑瑞思（数字化医疗科技公司）的论文。

传统的自动驾驶方法采用模块化设计，将任务分解为子任务。相比之下，端到端自动驾驶直接从原始传感器数据中输出动作，避免了错误累积。然而，训练端到端模型需要一个全面的数据集；否则，该模型表现出较差的泛化能力。最近，大型语言模型（LLM）已被应用于增强端到端驱动模型的泛化能力。大多数研究以开环方式探索LLM，将输出动作与没有来自现实世界的直接反馈的专家的动作进行比较，而另一些研究仅在模拟中检查闭环结果。本文提出了一种高效的架构，将多模态LLM集成到在现实环境中闭环设置下运行的端到端驾驶模型中。在我们的架构中，LLM定期处理原始传感器数据以生成高级驾驶指令，有效地指导端到端模型，即使速度比原始传感器数据慢。这种架构放宽了LLM的延迟和推理质量之间的权衡。它还允许我们从各种LLM中进行选择，以改进高级驾驶指令并最大限度地降低微调成本。因此，我们的架构降低了数据收集要求，因为LLM不直接输出操作；我们只需要训练一个简单的模仿学习模型来输出动作。在我们的实验中，现实世界环境中端到端模型的训练数据仅由一个交通锥的简单障碍物配置组成，而测试环境更复杂，包含放置在不同位置的多个障碍物。实验表明，即使不微调LLM，所提出的架构也提高了端到端模型的泛化能力。

研究背景与问题

传统自动驾驶方法：采用模块化设计（感知、预测、规划、控制），存在误差累积和中间标签依赖问题。
端到端自动驾驶：直接从传感器数据输出动作，避免模块化设计的缺陷，但严重依赖大量训练数据，泛化能力不足。
LLMs的潜力：大型语言模型（LLMs）在多模态理解和推理任务中表现出色，但现有研究多局限于开放环路或模拟环境，且需微调模型，难以直接应用于真实世界的闭环场景。

核心贡献

新型架构设计：
- 双组件架构：端到端模型（轻量级神经网络）负责实时动作输出（转向、油门），LLM定期生成高级指令（如"左转""右转"）。
- 零样本LLM应用 ：无需微调LLM，通过思维链（CoT）提示工程引导LLM生成指令，降低数据需求和计算成本。
- 异步协作：LLM以较低频率生成指令，端到端模型缓存指令并实时执行，解决LLM推理延迟问题。
实验验证：
- 训练环境：仅包含单一障碍物（锥桶）的简单场景。
- 测试环境：复杂场景（多障碍物、动态物体、光照变化）。
- 结果：
  - 端到端模型单独测试：成功率40%（复杂场景泛化能力弱）。
  - LLM+端到端模型：最佳组合（LLaVA-LLaMA2-13B + ViT）成功率提升至83%，ChatGPT-4o等模型表现次之（75%）。
  - 动态障碍测试：LLaVA-LLaMA2在移动车辆场景中成功率100%，ChatGPT-4o在复杂混合场景中表现较差（33%）。
关键优势：
- 降低数据需求：仅需简单场景的少量训练数据。
- 无需LLM微调：通过提示工程激发LLM的泛化能力。
- 实时性保障：端到端模型运行于边缘设备（如手机），弥补LLM的延迟问题。

局限性

环境敏感性问题：
- 强逆光、地面反射等复杂光照条件下，LLM可能无法正确识别障碍物（如附录D.1示例）。
- 动态障碍物（如行人、车辆）的长期轨迹预测能力有限。
提示工程依赖：
- 需针对任务设计精细的CoT提示，通用性受限于LLM的上下文长度和理解能力。
硬件限制：
- 本地部署的LLM（如LLaVA）依赖高性能GPU，云端模型（如ChatGPT-4o）存在网络延迟风险。

未来方向

鲁棒性提升：
- 结合多模态传感器（激光雷达、雷达）增强环境感知。
- 优化LLM的视觉理解能力，减少光照变化的影响。
提示工程自动化：
- 开发自适应提示生成机制，降低人工设计成本。
边缘计算优化：
- 压缩LLM模型，实现本地高效推理（如量化、蒸馏）。
安全性与伦理：
- 研究LLM决策的可解释性，确保其在关键场景中的可靠性。

学术与实践意义

学术价值：首次在真实闭环环境中验证LLM与端到端自动驾驶的协同效应，为零样本LLM的应用提供新范式。
工业应用：为低成本、低数据依赖的自动驾驶系统开发提供可行方案，尤其适用于特定场景（物流、园区交通）。

如果此文章对您有所帮助，那就请点个赞吧，收藏+关注那就更棒啦，十分感谢！！！