CoLMDriver:基于LLM的协同自动驾驶

《CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving》

25年3月来自上海交大和上海AI实验室的论文

上海交大与上海AI实验室提出的CoLMDriver系统创新性地将大型语言模型(LLM)应用于多车协同驾驶。针对传统方法在环境建模和场景泛化方面的不足,该系统采用双管道架构:高层规划管道通过LLM谈判模块(Actor-Critic范式)实现动态分组协商,结合评估器的安全/效率反馈优化策略;底层执行管道则通过意图引导的Transformer模型生成可执行路径点。在InterDrive基准测试中,系统驾驶分数达88.53,成功率提升23%,尤其在车道变换场景表现突出。关键技术突破包括谈判机制创新、异步并行设计及意图-路径点映射方法,为自动驾驶中的LLM应用提供了新范式。研究代码已开源。CoLMDriver具有一个并行驾驶管道,有两个关键组成部分:(i)一个基于LLM的谈判模块,采用行动者批评范式,通过所有车辆先前决策的反馈不断完善合作政策;以及(ii)意图引导的航路点生成器,其将协商结果转换为可执行的航路点。此外,我们还介绍了InterDrive,这是一个基于CARLA的仿真基准,包括10个具有挑战性的交互式驾驶场景,用于评估V2V合作。实验结果表明,CoLMDriver的表现明显优于现有方法,在各种高度互动的V2V驾驶场景中,成功率提高了11%。


一、研究背景与问题

核心问题:
  • 单车辆自动驾驶局限性:环境感知不完整、交互场景泛化能力差。

  • 传统协同驾驶瓶颈

    • 优化方法:依赖精确环境建模,难以处理未知场景。

    • 学习方法:对未见过的多车交互模式泛化性差。

  • LLM直接应用的挑战

    • 空间规划能力弱

    • 推理延迟不稳定

    • 冗余信息降低协商效率


二、解决方案:CoLMDriver系统

整体架构(双并行管道):
  1. 高层规划管道(低频)

    • LLM谈判模块(Actor-Critic范式)

      • 动态分组机制:基于时空安全评分构建车辆通信图,按冲突风险分组。

      • LLM协商器:自然语言多轮谈判,输入包括车速、意图、历史对话。

      • 评估器(Critic):通过共识度(S_c)、安全性(S_s)、效率(S_e)评分提供反馈,加速收敛。

    • VLM意图规划器:生成导航/速度意图(如"左转"、"减速"),经LoRA微调适配驾驶场景。

  2. 底层执行管道(高频)

    • 意图引导路径点生成器

      • 输入:BEV占据图+高层意图(导航/速度)。

      • 模型:Transformer结构,融合环境特征与意图嵌入。

      • 输出:20个可执行路径点 → 通过PID控制器转为车辆控制信号。

关键创新
  • Actor-Critic谈判范式:LLM生成策略 → 评估器反馈 → 策略迭代优化(图1)。

  • 异步并行设计:高层协商与底层控制解耦,缓解LLM延迟影响。

  • 意图-路径点映射:多项式拟合专家轨迹,通过环境自适应加速度模型生成动态路径点。


三、实验与评估

1. 评测基准:InterDrive
  • 场景设计(10类挑战性交互场景,图4):

    • 交叉路口(IC):4种冲突类型(直行-直行、直行-左转等)。

    • 车道合并(LM):4种场景(高速匝道、T型路口等)。

    • 车道变换(LC):2种多车并行变道场景。

  • 评测指标

    • 路线完成率(RC)、违规分数(IS)、驾驶分数(DS=RC×IS)、成功率(SR)。
2. 实验结果
  • InterDrive性能(表1)

    • CoLMDriver在驾驶分数(DS)成功率(SR) 全面领先:

      • 总DS:88.53(优于第二名Rule-based的78.38)

      • 总SR:80%(优于CoDriving的57%)

    • 场景细分:在LC(车道变换)场景提升最显著(DS 59.21 vs 43.52)。

  • 消融实验(表2)

    • 移除Critic反馈 → SR从80.4%降至73.9%

    • 移除动态分组 → 车辆持续停滞(RC降至10.37%)

  • 实时性验证(图6)

    • 考虑推理延迟时,DS仅下降6.62%,仍保持>90分。
  • 泛化能力(表3)

    • 在Town05公开基准上,DS领先ReasonNet 11%(长路线场景)。

四、技术贡献

  1. 首个全流程LLM协同驾驶系统:实现从感知→协商→控制的闭环。

  2. 创新谈判机制

    • Actor-Critic架构提升协商效率

    • 动态分组减少通信冗余

  3. InterDrive评测基准:10类高冲突场景推动V2V交互研究。


五、局限性与未来方向

  • 当前局限:语言交互样本多样性不足。

  • 未来计划

    • 扩展更复杂的谈判场景

    • 优化LLM轻量化部署

    • 探索多模态输入(如语音交互)


总结

CoLMDriver通过LLM谈判机制解决了传统协同驾驶的泛化性问题:

  1. 高层意图协商:Actor-Critic框架实现安全高效的策略共识。

  2. 底层实时控制:意图引导的路径点生成器保障车辆执行力。

  3. 系统级创新 :双管道设计平衡LLM推理延迟与实时控制需求。

    实验证明其在冲突场景中的成功率显著提升(+11%),为LLM在自动驾驶中的落地提供了新范式。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!

相关推荐
LiJieNiub29 分钟前
读懂目标检测:从基础概念到主流算法
人工智能·计算机视觉·目标跟踪
weixin_519535771 小时前
从ChatGPT到新质生产力:一份数据驱动的AI研究方向指南
人工智能·深度学习·机器学习·ai·chatgpt·数据分析·aigc
爱喝白开水a1 小时前
LangChain 基础系列之 Prompt 工程详解:从设计原理到实战模板_langchain prompt
开发语言·数据库·人工智能·python·langchain·prompt·知识图谱
takashi_void1 小时前
如何在本地部署大语言模型(Windows,Mac,Linux)三系统教程
linux·人工智能·windows·macos·语言模型·nlp
OpenCSG1 小时前
【活动预告】2025斗拱开发者大会,共探支付与AI未来
人工智能·ai·开源·大模型·支付安全
生命是有光的1 小时前
【深度学习】神经网络基础
人工智能·深度学习·神经网络
数字供应链安全产品选型2 小时前
国家级!悬镜安全入选两项“网络安全国家标准应用实践案例”
人工智能·安全·web安全
科技新知2 小时前
大厂AI各走“开源”路
人工智能·开源
字节数据平台2 小时前
火山引擎Data Agent再拓新场景,重磅推出用户研究Agent
大数据·人工智能·火山引擎
TGITCIC2 小时前
LLaVA-OV:开源多模态的“可复现”革命,不只是又一个模型
人工智能·开源·多模态·ai大模型·开源大模型·视觉模型·大模型ai