CoLMDriver:基于LLM的协同自动驾驶

《CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving》

25年3月来自上海交大和上海AI实验室的论文

上海交大与上海AI实验室提出的CoLMDriver系统创新性地将大型语言模型(LLM)应用于多车协同驾驶。针对传统方法在环境建模和场景泛化方面的不足,该系统采用双管道架构:高层规划管道通过LLM谈判模块(Actor-Critic范式)实现动态分组协商,结合评估器的安全/效率反馈优化策略;底层执行管道则通过意图引导的Transformer模型生成可执行路径点。在InterDrive基准测试中,系统驾驶分数达88.53,成功率提升23%,尤其在车道变换场景表现突出。关键技术突破包括谈判机制创新、异步并行设计及意图-路径点映射方法,为自动驾驶中的LLM应用提供了新范式。研究代码已开源。CoLMDriver具有一个并行驾驶管道,有两个关键组成部分:(i)一个基于LLM的谈判模块,采用行动者批评范式,通过所有车辆先前决策的反馈不断完善合作政策;以及(ii)意图引导的航路点生成器,其将协商结果转换为可执行的航路点。此外,我们还介绍了InterDrive,这是一个基于CARLA的仿真基准,包括10个具有挑战性的交互式驾驶场景,用于评估V2V合作。实验结果表明,CoLMDriver的表现明显优于现有方法,在各种高度互动的V2V驾驶场景中,成功率提高了11%。


一、研究背景与问题

核心问题:
  • 单车辆自动驾驶局限性:环境感知不完整、交互场景泛化能力差。

  • 传统协同驾驶瓶颈

    • 优化方法:依赖精确环境建模,难以处理未知场景。

    • 学习方法:对未见过的多车交互模式泛化性差。

  • LLM直接应用的挑战

    • 空间规划能力弱

    • 推理延迟不稳定

    • 冗余信息降低协商效率


二、解决方案:CoLMDriver系统

整体架构(双并行管道):
  1. 高层规划管道(低频)

    • LLM谈判模块(Actor-Critic范式)

      • 动态分组机制:基于时空安全评分构建车辆通信图,按冲突风险分组。

      • LLM协商器:自然语言多轮谈判,输入包括车速、意图、历史对话。

      • 评估器(Critic):通过共识度(S_c)、安全性(S_s)、效率(S_e)评分提供反馈,加速收敛。

    • VLM意图规划器:生成导航/速度意图(如"左转"、"减速"),经LoRA微调适配驾驶场景。

  2. 底层执行管道(高频)

    • 意图引导路径点生成器

      • 输入:BEV占据图+高层意图(导航/速度)。

      • 模型:Transformer结构,融合环境特征与意图嵌入。

      • 输出:20个可执行路径点 → 通过PID控制器转为车辆控制信号。

关键创新
  • Actor-Critic谈判范式:LLM生成策略 → 评估器反馈 → 策略迭代优化(图1)。

  • 异步并行设计:高层协商与底层控制解耦,缓解LLM延迟影响。

  • 意图-路径点映射:多项式拟合专家轨迹,通过环境自适应加速度模型生成动态路径点。


三、实验与评估

1. 评测基准:InterDrive
  • 场景设计(10类挑战性交互场景,图4):

    • 交叉路口(IC):4种冲突类型(直行-直行、直行-左转等)。

    • 车道合并(LM):4种场景(高速匝道、T型路口等)。

    • 车道变换(LC):2种多车并行变道场景。

  • 评测指标

    • 路线完成率(RC)、违规分数(IS)、驾驶分数(DS=RC×IS)、成功率(SR)。
2. 实验结果
  • InterDrive性能(表1)

    • CoLMDriver在驾驶分数(DS)成功率(SR) 全面领先:

      • 总DS:88.53(优于第二名Rule-based的78.38)

      • 总SR:80%(优于CoDriving的57%)

    • 场景细分:在LC(车道变换)场景提升最显著(DS 59.21 vs 43.52)。

  • 消融实验(表2)

    • 移除Critic反馈 → SR从80.4%降至73.9%

    • 移除动态分组 → 车辆持续停滞(RC降至10.37%)

  • 实时性验证(图6)

    • 考虑推理延迟时,DS仅下降6.62%,仍保持>90分。
  • 泛化能力(表3)

    • 在Town05公开基准上,DS领先ReasonNet 11%(长路线场景)。

四、技术贡献

  1. 首个全流程LLM协同驾驶系统:实现从感知→协商→控制的闭环。

  2. 创新谈判机制

    • Actor-Critic架构提升协商效率

    • 动态分组减少通信冗余

  3. InterDrive评测基准:10类高冲突场景推动V2V交互研究。


五、局限性与未来方向

  • 当前局限:语言交互样本多样性不足。

  • 未来计划

    • 扩展更复杂的谈判场景

    • 优化LLM轻量化部署

    • 探索多模态输入(如语音交互)


总结

CoLMDriver通过LLM谈判机制解决了传统协同驾驶的泛化性问题:

  1. 高层意图协商:Actor-Critic框架实现安全高效的策略共识。

  2. 底层实时控制:意图引导的路径点生成器保障车辆执行力。

  3. 系统级创新 :双管道设计平衡LLM推理延迟与实时控制需求。

    实验证明其在冲突场景中的成功率显著提升(+11%),为LLM在自动驾驶中的落地提供了新范式。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!

相关推荐
文心快码BaiduComate1 天前
百度云与光本位签署战略合作:用AI Agent 重构芯片研发流程
前端·人工智能·架构
风象南1 天前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia1 天前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮1 天前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬1 天前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia1 天前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区1 天前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两1 天前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪1 天前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain