通往L4之路:构建自我进化的智能驾驶决策大脑摘要: 本文旨在提出一个超越当前主流“感知-预测-规划”分离式架构的下一代自动驾驶决策系统方案。面对自动驾驶领域最核心的“长尾场景”难题,本文借鉴并升华了一套源于复杂策略制定的决策智能框架,通过构建动态驾驶世界模型(Dynamic Driving World Model)、在仿真环境中进行对抗性“极限”场景生成、基于蒙特卡洛树搜索(MCTS)进行多模态驾驶行为规划,并最终利用以GRPO(Graph-based Reinforcement Policy Optimization)为代表的离线强化学习范式,训