51c自动驾驶~合集59

我自己的原文哦~https://blog.51cto.com/whaosoft/13977368

#从图像生成到端到端轨迹规划

一、扩散模型原理

扩散模型Diffusion Models是一种生成式模型，本质是去噪，噪音符合某种特定分布。其原理基于对数据分布的学习和模拟，主要包括正向扩散过程和反向生成过程。

其名字来源于一滴墨水滴进清水，以随机运动的方式弥散到清水乃至于彻底消融。

扩散模型学习这个弥散过程，目的是把融化进清水（纯噪音）里面的墨水（原始数据）恢复出来。

模型训练好后，给定一杯滴了墨水的清水，变魔术一般恢复出原始的墨水。这里的魔术只是某种学习了分布规律的神经网络。

正向扩散过程

从初始数据分布（如真实图像分布）开始，逐步向数据中添加噪声，这个过程遵循一个马尔可夫链。在每一步，根据前一步的状态和一个固定的噪声分布，生成下一个更具噪声的数据点。随着时间步的增加，数据逐渐变得更像噪声，最终达到一个近似纯噪声分布。

反向生成过程

从纯噪声开始，通过学习一个逆过程来逐步去除噪声，以恢复出原始数据。这个逆过程通过神经网络来参数化，网络的目标是根据当前带噪声的数据点和时间步，预测出前一个时间步的更接近原始数据的点。在训练过程中，通过最大化似然估计或其他损失函数来调整神经网络的参数，使得模型能够逐渐学会从噪声中生成真实的数据样本。

扩散模型通过正向扩散过程来定义数据的噪声化过程，然后通过反向生成过程来学习如何从噪声中恢复数据，从而实现对数据分布的建模和生成新的数据样本。

图正向-反向diffusion过程，图片来自网络

马尔可夫链（Markov Chain）是一种具有马尔可夫性（无记忆性）的随机过程，描述系统在状态空间中随时间转移的规律。其核心特征是：未来状态的概率仅依赖于当前状态，与历史状态无关。所以马尔科夫性这个性质其实是个人为简化。

|------|----|-----------------------|
| 过程 | 公式 | 说明 |
| 正向单步 | | |
| 正向多步 | | 累积噪声的线性组合 |
| 反向单步 | | 神经网络预测噪声驱动去噪，ϵ′ 为随机噪声 |
| 损失函数 | | 最小化预测噪声与真实噪声的均方差 |

扩散模型扩散过程每一层的概率分布类型通常是一样的，只是参数不一样。

在常见的扩散模型中，比如基于高斯分布假设的扩散模型，每一层（时间步）的条件概率分布通常都被建模为高斯分布。虽然不同层的均值和方差等参数会根据扩散过程而变化，但分布类型保持一致，这样的设定有助于模型的数学推导和计算。当然，也有一些扩散模型可能会采用其他类型的分布，如拉普拉斯分布等，在这种情况下，模型各层也会基于相同类型的分布来构建。

扩散模型（Diffusion Models）通常结合多种类型的神经网络来实现核心功能，包括去噪过程建模、概率分布学习和多尺度特征提取。其最常用的神经网络类型是u-net：

图 U-net架构图，来自网络

U-Net作为最核心架构，其结构特点完全是对称的，直观讲就是两个卷积神经网络尾对尾嫁接在一起。

编码器 - 解码器架构：编码器：通过卷积层逐步降低特征图分辨率，提取高层语义信息（如物体形状、纹理）。

解码器：通过上采样和跳跃连接恢复分辨率，将高层语义与低层细节结合。

跳跃连接：缓解深层网络的梯度消失问题，增强细节恢复能力。

其在扩散模型中的作用是作为去噪核心，功能是输入带噪声的图像和时间步长（表示噪声强度），输出去噪后的图像或预测噪声。

图像生成模型如 DALL-E 2、Stable Diffusion 均以U-Net 为骨干网络。

作为U-net的核心创新的跳跃连接，其思想非常类似resnet的残差链接，直接越过多层叠加。其操作是将编码器特征图Fi和解码器特征图Gj沿通道维度拼接，生成新的特征图 H。示例代码如下：

二、扩散模型和生成对抗网络的对比

生成对抗网络（Generative Adversarial Networks，GANs）是一种深度学习模型，由生成器（Generator）和判别器（Discriminator）组成，通过两者的对抗博弈来学习数据分布并生成新样本。它于2014年由 Ian Goodfellow（就是人工智能花书的作者）等人提出，已广泛应用于图像生成、视频合成、数据增强等领域。

生成对抗网络和扩散模型都存在加噪和去噪过程，目的都是去噪。从输入输出角度看，二者有一定的可替换性。

目前并无文献表明二者谁更优。也有文献使用生成对抗网络来做自动驾驶的长尾场景生成。

生成对抗网络是在生成器的输入中加入噪声，可以使生成器更灵活地探索潜在空间，从而生成更加多样化的样本。

具体实现步骤如下：

在生成器的输入向量 ( z ) 中加入噪声。
噪声通常是从一个简单的分布（如标准正态分布 ( N(0, 1) ) 或均匀分布 ( U(-a, a) )）采样得到的。

图生成对抗网络的加噪过程，来自网络

生成对抗网络（GAN）在自动驾驶领域的应用几乎和扩散模型重合，主要涵盖数据生成、场景仿真、感知增强和决策优化等方面。比如SurfelGAN（Google）利用激光雷达和摄像头数据生成逼真的相机图像，用于自动驾驶仿真模型训练。

扩散模型像"考古修复"（从碎片还原文物），GAN像"造假大师"（不断改进伪造技术）。

|------|-------------------------|----------------------------------------|
| 维度 | 扩散模型 | 生成对抗网络（GANs） |
| 核心机制 | 基于正向扩散与逆向去噪的概率建模 | 基于生成器与判别器的对抗博弈 |
| 训练方式 | 非对抗训练，仅需优化单一神经网络 | 对抗训练，需同时优化生成器和判别器 |
| 稳定性 | 训练更稳定，不易出现模式崩溃 | 训练难度高，易因梯度消失或模式崩溃失败 |
| 样本质量 | 生成图像通常更清晰、多样性更强（尤其高分辨率） | 早期 GANs 在高分辨率下可能出现模糊，需改进架构（如 StyleGAN） |
| 计算成本 | 训练和生成需多步迭代，计算复杂度高 | 生成阶段仅需单次前向传播，速度快 |
| 理论基础 | 基于热力学扩散过程和变分推断 | 基于博弈论和概率分布匹配 |
| 数学工具 | 随机微分方程（SDE）、马尔可夫链 | 概率分布散度（如 JS 散度、Wasserstein 距离） |

目前看扩散模型似乎比生成对抗网络更受欢迎，一个原因是生成对抗网络需要训练至少两个神经网络：生成器和判别器，计算量很大，训练好的模型体积也大。

但是生成对抗网络也有优势，就是其加噪过程往往融合多种分布类型的噪音，叠加的噪音更复杂；而不像基于马尔可夫链加噪的扩散模型，噪音分布类型在一般情况下不变，只是变化分布参数。

三、扩散模型在自动驾驶领域的应用

扩散模型由于其去噪的本质，在自动驾驶领域的应用主要集中在数据生成、场景预测、感知增强和路径规划等方面。需要说明，扩散模型不仅可以用来对连续分布噪音进行去噪，也可以对离散分布噪音（和数据）去噪，所以它也可以用于离散问题，比如决策规划。

以下是具体的应用场景和技术优势：

1. 合成数据生成

扩散模型能够生成高度逼真的驾驶场景数据，解决真实数据不足或标注成本高的问题。

罕见场景生成，如极端天气（暴雨、大雾）、突发障碍物（行人横穿、车辆逆行）等，提升模型的泛化能力。

而且这种生成是可控的，通过条件控制（如BEV布局、3D标注）生成特定场景，例如NuScenes和KITTI数据集的扩展。

比如SynDiff-AD，基于潜在扩散模型的数据生成pipeline，显著提升模型在低光照、极端天气等条件下的性能。

2. 场景预测与视频生成

扩散模型可用于预测未来驾驶场景的动态变化，

包括多模态预测，也就是生成可能的交通参与者行为（如车辆变道、行人轨迹），支持决策系统。还有视频生成，比如DriveGenVLM结合视觉语言模型（VLMs）生成真实驾驶视频，用于仿真测试。

3. 感知任务优化

扩散模型在感知任务中可去除噪声并增强数据质量：

BEV去噪：利用扩散模型清理鸟瞰图（BEV）中的噪声，提升目标检测精度。

多传感器融合：生成一致的雷达与摄像头数据，改善感知鲁棒性。

4. 路径规划与决策

扩散模型通过概率建模支持多模态路径生成：

Diffusion Planner：清华AIR团队提出的规划算法，利用扩散模型的引导机制适应复杂路况，提升安全性和泛化能力。

实时端到端控制：DiffusionDrive通过截断扩散步骤实现实时决策，直接从人类驾驶数据学习。

其中所谓截断扩散就是跳跃性地去噪，本来去噪要像加噪过程一样经过多步打磨，现在则是直接越过几步，去噪时通过采样来模拟多步加噪的叠加分布，至于越过几步为好则是调参的艺术。

5. 端到端自动驾驶

扩散模型直接学习驾驶策略，简化传统模块化流程。

比如动作分布建模，也就是处理多模式驾驶行为（如避障或变道），避免传统方法的单一输出限制。

6. 小众应用

除了直接用于自动驾驶的扩散模型，还可以用于优化算法（也就是求最大或最小值），从而间接服务于自动驾驶。

自动驾驶有许多最小化优化问题，比如最小能量消耗路径，在商用车重卡领域用的非常多。其目标函数是：

其中F函数式车辆在速度vi下的单位距离能耗。

而Diffusion-ES（Diffusion Evolution Strategy）是一种将扩散模型（Diffusion Model）与进化策略（Evolution Strategy, ES）相结合的优化算法，旨在利用扩散模型强大的生成能力和进化策略的全局搜索能力，高效求解复杂优化问题，比如上面的最小能量消耗路径求解。

技术优势总结

|--------|----------------|------------------------|
| 应用方向 | 技术优势 | 典型案例 |
| 合成数据生成 | 解决数据稀缺，支持可控生成 | SynDiff-AD 、ControlNet |
| 场景预测 | 多模态未来帧生成，动态适应性 | DriveGenVLM |
| 感知优化 | BEV去噪、多传感器一致性 | BEV-Guided Diffusion |
| 路径规划 | 多模态路径生成，高泛化能力 | Diffusion Planner |
| 端到端控制 | 实时性高，直接学习人类策略 | DiffusionDrive |

四、总结

扩散模型在自动驾驶中的应用仍处于快速发展阶段，未来可能与BEV、大语言模型（LLMs）进一步结合，推动全栈技术革新。

业界和学术多有基于扩散模型的技术方案，本文更偏重企业方案，列举三个：

毫末智行在2025 年 1 月 28 日，毫末智行联合清华大学 AIR 智能产业研究院等机构在 ICLR 2025 上发布了 Diffusion Planner。该算法基于 Diffusion Transformer，能高效处理复杂场景输入，联合建模周车运动预测与自车规划中的多模态驾驶行为。通过扩散模型强大的数据分布拟合能力，精准捕捉复杂场景中周车与自车的多模态驾驶行为，实现周车预测与自车规划的联合建模。在大规模真实数据集 nuPlan 的闭环评估中取得 SOTA 级表现，大幅降低了对后处理的依赖，并在 200 小时物流小车数据上验证了多种驾驶风格下的鲁棒性和迁移能力。目前，毫末团队已进入实车测试阶段，率先实现端到端方案在末端物流自动配送场景的应用落地。

地平线与香港大学等团队提出了 HE - Drive，这是首个以类人驾驶为核心的端到端自动驾驶系统。该系统利用稀疏感知技术生成三维空间表示，作为条件输入到基于条件去噪扩散概率模型（DDPM）的运动规划器中，生成具备时间一致性的多模态轨迹。然后，基于视觉语言模型引导的轨迹评分器从候选轨迹中选择最舒适的轨迹来控制车辆。HE - Drive 在 nuScenes 和 OpenScene 数据集上实现了 SOTA 性能和效率，同时在真实世界数据中提供了更舒适的驾驶体验。

理想汽车在 2025 年推出的下一代自动驾驶架构 MindVLA，整合了空间智能、语言智能和行为智能。该技术基于端到端和 VLM 双系统架构，通过 3D 空间编码器和逻辑推理生成合理的驾驶决策，并利用扩散模型优化驾驶轨迹。MindVLA 采用 3D 高斯作为中间表征，利用海量数据进行自监督训练，其 LLM 基座模型采用 MoE 混合专家架构和稀疏注意力技术。通过 Diffusion 模型将动作词元解码为优化轨迹，并结合自车行为生成和他车轨迹预测，提升复杂交通环境中的博弈能力。

最后，本文列举一个有代表意义的学术方案。

在2024年机器人顶会 CoRL 上，《One Model to Drift Them All: Physics-Informed Conditional Diffusion Model for Driving at the Limits》一文的作者们Franck Djeumou等提出利用包含多种车辆在多样环境下行驶轨迹的未标记数据集，训练一个高性能车辆控制的条件扩散模型。条件扩散模型（Conditional Diffusion Models, CDMs）是一类基于扩散过程的生成模型，在生成过程中引入了额外的条件信息，从而能够生成更为符合特定需求的样本，例如生成符合特定文本描述、类别标签或其他先验信息的图像。

这里的drift就是头文字D里面的飘移，在极限情况下的飘移动作（横向滑动），该模型能通过基于物理信息的数据驱动动态模型的参数多模态分布，捕捉复杂数据集中的轨迹分布。通过将在线测量数据作为生成过程的条件，将扩散模型融入实时模型预测控制框架中，用于极限驾驶。据报道，在丰田 Supra 和雷克萨斯 LC 500 上的实验表明，单一扩散模型可使两辆车在不同路况下使用不同轮胎时实现可靠的自动漂移，在对未知条件的泛化方面优于专家模型。

#VLA模型

元戎启行周光：携手火山引擎，基于豆包大模型打造物理世界Agent

2025年6月11日，元戎启行CEO周光受邀出席2025年火山引擎Force原动力大会，宣布元戎启行将携手火山引擎，基于豆包大模型，共同研发VLA等前瞻技术，打造物理世界的Agent。同时，周光宣布元戎启行的VLA模型将于2025年第三季度推向消费者市场，并展示了VLA模型的四大功能------空间语义理解、异形障碍物识别、文字类引导牌理解、语音控车，功能将随量产逐步释放。

元戎启行CEO周光

周光:"VLA的四大核心功能，相当于为AI汽车增加'透视眼''百事通''翻译官''应答灵'等属性，让AI汽车更全面地了解驾驶环境，准确预测潜在驾驶危险因素，显著提升辅助驾驶的安全性。"

空间语义理解：驾驶"透视眼"

VLA模型能够全维度解构驾驶环境，精准破解桥洞通行、公交车遮挡视野等动静态驾驶盲区场景驾驶风险。

例如，在通过无红绿灯的路口时，VLA模型能提前识别到"注意横穿，减速慢行"的指示牌，即使公交车通行造成动态盲区，VLA也会结合公交车的动作去做出准确的决策。当公交车进行减速时，它会通过推理前方可能有行人穿行，并做出"立即减速、注意风险、谨慎通行"的决策。

，时长00:16

公交车动态盲区遮挡

异形障碍物识别：驾驶"百事通"

vla模型是一个超级学霸，它通过互联网迅速获取知识并转换成自己的经验，有自己的驾驶"知识库"，对驾驶过程中出现的各类障碍物了如指掌，准确判断潜在危险因素，行驶更安全。例如，VLA模型能够识别"变形"的超载小货车，结合实际路况，执行减速绕行或靠边驾驶。

，时长00:16

异形障碍物识别

文字引导牌理解：驾驶"翻译官"

搭载VLA模型的AI 汽车不仅能 "看见" 道路标识，更能 "读懂" 文字背后的通行规则，解析复杂路况里蕴含的路况信息，让复杂路况决策如 "开卷考试" 般从容。面对左转待行区、可变车道、潮汐车道等 "动态规则路段"，VLA模型能够读懂字符与图标的含义，高效匹配实时路况。在多车道复杂路口选道直行的场景中，能够准确识别车辆前方的文字及图案标识牌，从左转右转混杂的路口准确找到左转车道，并执行操作。

，时长00:14

特殊路标识别

语音交互控车：驾驶"应答灵"

通过VLA模型，AI汽车可以与用户高效交流，根据语音指令做出对应的驾驶决策，随叫随应，交互更拟人，体验更舒适。并且当用户意愿与导航信息相冲突时，VLA模型会优先采纳用户意愿。

语音控车指令

目前，元戎启行已完成VLA模型的真实道路测试，预计今年将有超5款搭载元戎启行VLA模型的AI汽车陆续推入市场。其中，VLA模型支持激光雷达方案与纯视觉方案，将率先搭载在NVIDIA Drive Thor芯片上，后续元戎启行还将通过技术优化，让VLA模型可以适配更多芯片平台。

火山引擎汽车总经理、智慧出行和xx研究院院长杨立伟表示："元戎启行作为业内率先推出VLA模型的企业之一，对人工智能的理解极为深刻。火山引擎作为行业领先的云服务提供商，在云计算领域拥有深厚的技术实力和丰富的经验。我们非常期待与元戎启行携手合作，共同推动基于豆包大模型的物理世界Agent的落地应用，助力智慧出行领域的创新发展。"

周光强调："VLA模型作为当下最先进的AI技术，可以连接视觉、语言、动作等多种模态，打通物理世界与数字世界的壁垒，具有完善的任务规划和执行能力，是实现物理世界 agent 的关键技术。元戎启行很高兴能够与火山引擎达成合作，基于VLA模型共同打造物理世界的Agent，让双方的先进技术在物理世界的各个领域落地，推动生产力进阶。"

#理想司机Agent的一些细节

整体评价：基于司机Agent 这个产品定义主要专注于封闭园区/地下车库场景下的多模态信息融合感知输出决策。

产品整体定义，细节都是做的很完善了。

举几个细节点：

1️⃣：首先Agent 产品已经全模型化输出轨迹，除了部分兜底还会有少量的规则。因此和过去的AVP产品体验完全不一样。最为直观的感受就是你感觉到在园区/地下车库 AD Max 自己开车和人类司机开车体验几乎无差异

【当然还是没有人类老司机开得好】。

2️⃣：基于2D/3D 信息编码整合进模型后，Agent 具备理解道路标牌【例如，出口，上下坡道，左右转，电梯口，不允许通行，区域B12345，ABCDEFGG区 etc】的能力，和语音交互感知【左右转，靠边停车，掉个头，快点慢点，甚至给出先去A区再靠边，或者掉头后再去C区】的能力。简单指令场景依赖的是本地的多模态LLM，复杂指令是Token化后上云大参量的LLM，将任务拆解后转换成顺序任务后在本地LLM执行。

3️⃣：具备自建关联点的能力【我这里为什么不说建地图而是建关联点】有就几个原因：首先更多的是行车的关联结构，而并非记忆了精准的道路结构。因此车辆在调用这个关联点记忆很像人在地下车库开车【大概要往哪个地方开，而并非是像Hd map 具有严格的驾驶轨迹限定】，换句话说，关联点建好后。理论上，给Agent 需求后，会直接进行关联点分析，规划出一条最近的【可以符合通行逻辑】的地下/园区驾驶轨迹。当然现在他能力还有限，还是偶尔会出现开错路，然后触发掉头再开【对因为行车模型化后，理论上可以触发无限制掉头，几乎不会卡死】

4️⃣：具备感知推理能力，而且怀疑整个AD Max Agent 场景是将行车感知摄像头和泊车【鱼眼】感知摄像头对齐后输入到模型里面。甚至还前融合了激光雷达的数据。

基本可以做到全向规则/不规则的环境感知能力。

考虑到业内发展态势如此之快。从个人体验角度来看，我觉得AD Max 司机Agent 和 NIO AD 的NWM。

是目前唯二，将多模态感知信息整合到一个模型里实现复杂推理的应用场景。

NWM大家已经看到大量实测视频，地下寻路能力非常不错，而且多模态感知能力也非常好。

司机Agent。截至目前释放的范围：

1️⃣：多模态感知+语音交互；

2️⃣：地下车库收费杆感知，判断。衔接到封闭园区再到公开道路；

3️⃣：构建关联点记忆能力【第二次就不需要漫游出园区/地下车库】，直接可以跟着大概记忆走，记忆不对也会触发掉头，换路 etc。

#谢赛宁开炮，现场打脸CVPR评审？

在CVPR 2025上，谢赛宁发出振聋发聩的批判：如今的AI学术界，已经彻底畸形了！有巨大缺陷的学术激励制度，让所有研究者陷入内卷，精疲力竭。而自己的DiT、SiT等开山论文，也让CVPR评审被狠狠打脸了！

为什么如今的人工智能研究，有可能沦为一场「有限游戏」？

研究人员面临的压力，已经令人精疲力竭，当今的学术激励制度，是否存在着巨大缺陷？

刚刚在CVPR 2025上获得年轻研究者奖的谢赛宁，提出了这些深刻的问题，引起了全场深思。

作为纽约大学计算机科学助理教授，谢赛宁此次获奖可谓实至名归。

而他的演讲「研究作为一种无限游戏」，也成为本届CVPR上的精彩亮点之一。

有趣的是，谢赛宁特意回顾了自己的DiT、SiT两篇论文，分别被CVPR 2023和2024拒收的经历。

虽然当时被拒收，但紧接着，CVPR评审就被狠狠打脸：这两项工作，分别成为了Sora和Stable Diffusion 3的奠基性成果。

谢赛宁参加的这个CVPR社区建设研讨会，主题就是支持早期职业研究人员的成长。

活动现场，各位研究者们都发表了一系列精彩演讲，进行了坦诚的小组讨论。

下面，就让我们仔细看一下谢赛宁的演讲中都说了什么，准备好，思想盛宴开启！

AI研究，是一场「无限游戏」

在演讲开场，谢赛宁介绍了这样两种游戏。

其中一种是有限游戏，它有一套明确的规则，目的就是获胜。有人获胜，就意味着其他玩家失败。

而一旦宣布获胜者，游戏就结束了，所有玩家必须停止游戏。

而另一种，就是无限游戏。它的目标不是获胜，而是让所有玩家继续玩下去。

任何规则、界限，甚至是玩家，都可以随着时间推移而变化。唯一的必要条件，就是游戏永不终止。

以上概念，是由NYU历史学教授James Carse在自己的书中提出的。

而在本次演讲中，谢赛宁主要谈论了以下四部分的内容。

1. 为何研究理应是一场「无限游戏」？

2. 我，即是我自己的天才

3. AI研究正在陷入「有限游戏」困境？

4. 无人能孤身成局

为何研究理应是一场「无限游戏」？

所谓「无限游戏」，可以从反脆弱性、开放性、持久性和教育这4个方面说起。

A. 反脆弱

「反脆弱性」就是指任何在面对随机事件（或某些冲击）时，上行空间大于下行风险的事物。

无限游戏就是反脆弱性的，研究也是同样。

很典型的一个例子，就是一篇论文的影响力，对你职业生涯的影响。

所以，究竟该如何才能找到真正属于自己的研究思路呢？

**第一步：**追随你的好奇心与热情，让它们为你指引方向；

**第二步：**大胆探索，在数学推导和动手实验中反复尝试；

**第三步：**拥抱不期而遇的惊喜，真正的灵感往往源于意外------从混沌中获益！

注意，一定要避开这个陷阱：从第一天起就抱着一个僵化的想法，然后发表一篇固步自封的论文。而这，往往是最为平庸的作品。

B. 开放

经过训练，有限玩家可以预测未来的每一种可能性，以控制未来为目标。但无限玩家则继续游戏，期待着惊喜。

惊喜会导致有限游戏的结束，却是无限游戏得以延续的理由。

在开放的科学中，进步不是来自对知识的守旧，而是来自对知识的分享。只有发现的游戏才能持续，才能不断演化。

可以说，学术界是唯一一个你可以完全自由、开放地探索的空间。

对身处学术界的人来说，请充分利用这份独特的自由------这是一种特权。

而对身处工业界的人来说，学术界可以成为你强有力的盟友，帮你降低风险、开启新的方向。

C. 坚守

有限游戏的参与者，可能会在目标无法实现时选择放弃：「论文没被接收/没拿到资助/产品没上线，所以我失败了。」

而对无限游戏的参与者来说，坚持是一种存在方式：「这是更长远游戏的一部分。我该如何学习、适应，继续前行？」

在这里，谢赛宁就引用了自己DiT论文的典故。

2022年，他和William Peebles一起发表了DiT论文，首次把Transformer和扩散模型结合了起来。

从此，统治扩散模型的U-Net直接被取代。这一论文，成为了奠定他学术地位的开山之作。Diffusion Transformer，也成为了Sora的基础架构之一。

论文地址：https://arxiv.org/abs/2212.09748

然而，就是这样一篇神作，当初却因「缺乏创新性」的理由，直接被CVPR 2023拒了，还一连被多个大公司拒绝。

还有另外一个小插曲：谢赛宁是在deadline截止前三周，才转向这个项目的。

后来，他们重新提交了这篇论文，未经任何修改，就在ICCV 2023上获得了Oral。

而合著者William (Bill) Peebles随后加入了OpenAI，领导了Sora技术团队，让DiT的影响力在全世界无限扩大。

Sora爆火后，谢赛宁针对其技术报告做了解析：Sora应该是基于他和Bill之前在ICCV 2023上提出的以Transformer为主干的扩散模型（DIT）。其中，DIT=[VAE编码器+VIT+DDPM+VAE解码器]

所以谢赛宁告诉我们：有时候，你需要等待；另一些时候，你需要换一种方法，来实现目标。

另外，他和Willis Ma等合著的SiT论文，也因「缺乏创新性」这个理由，被CVPR 2024拒了。

论文地址：https://arxiv.org/abs/2401.08740

在稍加修改后，论文被ECCV 2024接收。

就在几个月后，CVPR评审又被打脸了：Stable Diffusion 3发布，直接表明「结合了DiT架构和流匹配技术」，也就是基于SiT。

而谢赛宁等人的SiT，现在早已成为工业界常用的基准方法。

总之，谢赛宁表示，自己还可以继续讲很多，自己的许多被最多应用的论文，开始并没有得到最有力的评价。

但是坚持不懈，就是无限玩家会做的事！

D. 教育

如果把博士的「培养」视作一个「有限游戏」，会是下面这样。

· 规则目标

发表X篇论文、通过资格考试、完成毕业答辩。

· 参与成员

你自己、你的导师委员会，以及同届的其他博士生。

· 获胜条件

赢得「博士」头衔，收获学术声望。

· 游戏时限

毕业，即是这场游戏的明确终点。

但博士的「教育」，其实是一场「无限游戏」。

· 终身学习之道

博士教育的真谛在于教会你如何学习，如何提出深刻的问题，如何挑战既有假设------这些能力将伴你终身，其价值远超学位本身。

· 炼就自身心智

你将成为一个能安然于模糊混沌，能与盘根错节的复杂性深度共事，并能在失败与迭代中安之若素的人。

· 从汲取到反哺

你完成了从知识的汲取者到知识的创造者的蜕变------并开始为后来者引路。

· 游戏永不终局

即便毕业，你也并未「赢得」科研或教育这场游戏。你将永远身在局中，而你参与的目的，就是为了让这场游戏永远进行下去。

我，即是我自己的天才

讲到这里，谢赛宁告诉我们：所有人都能够并理应开创自己的赛局。

首先，需要思考一个问题------我们究竟为什么要发表论文？

Hannah Arendt曾在1964年说：「我该为影响力而奔走吗？不，我渴望的是理解。而当他人也达成了与我同样的理解------那一刻，我便获得了一种满足感，一种深刻的归属感。」

而你，我的朋友，要做的就是定义属于自己的玩法！

在无限游戏中要脱颖而出，靠的不是战胜对手，而是成为你自己，并去鼓舞他人！

这也就是我们常说的「讲好一个故事」，以及「研究的品味」。

接下来，谢赛宁提出了一个非常有意思的观点------研究人员就像是时尚设计师。

比如在他看来，何恺明就是最好的设计师之一。

你或许对这些说法不陌生：「一表一核心！」

或者这个：「简洁且有理有据的方法。」

「一步一步地进行消融实验，厘清混淆变量。」

而这些设计，也让谢赛宁等人获得了业界的诸多肯定。

正如谢赛宁一直以来都会为自己的项目打造一个专属的主页。

你也应该为自己的论文、工作、甚至是本人，打造鲜明的品牌。

不要只做一个学术的「缝补匠」。

（指那些沉迷于对现有模型/工作进行微小改进的研究者）

要知道，在如今这个时代，人们早已没有时间去读那么多paper。

因此，怎样做好知识共享，让自己的学术成果得到最大化的传播，就成了一门很重要的学问。

而谢赛宁的模板由于效果十分拔群，在圈子里可谓是相当火爆------有不少研究者都复用在了自己的项目里。

AI研究正在陷入「有限游戏」困境？

接下来这一部分，谢赛宁提出了很多相当令人担忧的问题。

面对正在陷入「有限游戏」泥沼的AI研究，「无限玩家」必须挺身抗衡。

如今，业界形成的一些研究范式，着实令人担忧。

比如我们经常看到的下面这个局面------

一个关键的「有限玩家」（比如OpenAI）发布了一篇新论文（比如4v, r1, GRPO, o1, 4o...）。

紧接着，一波跟风之作便会随之而来。之后，所有人都会蜂拥而上，争相发表同一主题的论文。

由此，大家陷入了一场唯「快」是图的竞赛。

原因在于，一旦论文率先发表，就能收获更多引用和关注，成为赢家。后来的贡献者，往往就被直接忽视，成为输家。

而一旦某项「开山之作」问世，其他人就会迅速放弃这个课题。

由此，研究人员也被逼得身负重压。

巨大的科研压力，时常压得他们喘不过气来，尤其是学生和青年学者。

所有人都在为争夺有限的认可而拼命内卷，维持着让人身心俱疲、难以为继的节奏。

而现在的学术界，也已经形成了一套颇为畸形的学术激励机制。

比如重视速度，轻视深度和创造力；奖励短期的快速胜利，而不是持久的贡献。

这就十分危险------当学术界也玩起了「有限游戏」，惨败的结局就已经注定！

而破局之道，就是定义新的问题。毕竟，问题是无穷无尽的。

举例来说，谢赛宁和Penghao Wu早在2023年7月就启动了引导视觉搜索作为多模态LLM核心机制的「V*」项目。

当时他们的动机在于，根据人类心理学的相关研究，视觉搜索是一种核心认知机制。

论文地址：https://arxiv.org/abs/2312.14135

在这项研究中，谢赛宁等人将VQA LLM与视觉搜索模型相结合。借助大模型的世界知识，V*会对视觉目标进行多轮引导搜索。接着，它会提取局部特征并将其添加到工作记忆中，最终利用搜索到的数据生成响应。

扩展阅读：

· CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类

虽然有些人对此表示不解：「这项能力有什么必要吗？它明明会拖慢整个系统。」

但随着新问题的诞生，新的赛局也悄然打响。

时间来到2025年，当OpenAI在发布最新版o3和o4-mini的时候，不仅在模型评测中加入了基于V*的视觉搜索基准，而且还将基于图像的思考能力作为重中之重，直接放在了标题上。

扩展阅读：

· OpenAI震撼发布o3/o4-mini，直逼视觉推理巅峰！首用图像思考，十倍算力爆表

· o3精准破译照片位置，只靠几行Python代码？人类在AI面前已裸奔

· 两张图定位全球，o3碾压T0级高手！人类「诡计」被看穿，跨模态推理爆表

一句话总结就是：「有限游戏」或许能带来财富、地位、权力与认可；但「无限游戏」所提供的，是某种更深刻、也更有意义的回报。

当然，我们并不能指望青年学者从一开始就自然具备这种着眼长远、胸怀利他的格局。

真正的问题在于：我们该如何构建一个正向的反馈闭环，来孕育并守护这种格局？

无人能孤身成局

PPT最后，就到了上价值这趴了。

作为总结，谢赛宁先是通过引述，写出了自己的一些思考和感悟。

「要是搞计算机视觉，你绝对找不到工作。」------某篇博客，2010年

「你应该投身于计算机视觉。CVPR这个社区开放、包容，从不排外。」------一位导师，2013年

正如前文所述，「玩家」从不稀缺，但更多的玩家并不一定意味着「无限游戏」。

因此谢赛宁呼吁，希望大家能够共同努力让整个科研环境变得更好。

我们切莫将社区的存在视为理所当然------它的强大与包容，你我皆有责任。

最后，致各位无限游戏中的同道者们：尽情享受这场游戏吧，谢谢大家！

参考资料：

https://x.com/sainingxie/status/1933009474949652546

#完全端到端的主流方法

1. 从原始传感器数据到控制策略的端到端方法

端到端自动驾驶基本流程：

（1）子任务模型被更大规模的神经网络模型取代，最终即为端到端神经网络模型；

（2）由数据驱动的方式来解决长尾问题，取代rule-based的结构。

优点：

（1）直接输出控车指令，避免信息损失；

（2）具备零样本学习能力，更好解决OOD问题；

（3）数据驱动方式解决自动驾驶长尾问题；

（4）避免上下游模块误差的过度传导；

（5）模型集成统一，提升计算效率。

2. 完全端到端是怎么做的

评估指标

开环指标：

（2）碰撞率

闭环仿真：

（1）路线完成率（RC）路线完成的百分比

（2）违规分数（IS）衡量触发的违规行为

（3）驾驶分数（DS）表示驾驶进度和安全性

3. UniAD算法详解

3.1 算法动机

（1）跨模块信息丢失、错误积累和特征misalignment；

（2）负向传输；

（3）安全保障和可解释性方面；

（4）考虑模块较少。

3.2 开创性思路

（1）第一项全面研究自动驾驶领域包括感知、预测和规划在内的多种任务的联合合作的工作；

（2）以查询方式链接各模块的灵活设计；

（3）一种以决策为导向的端到端框架。

3.3 主体结构

特征提取，特征转换，感知模块（目标检测+多目标跟踪+建图部分，TrackFormer、MapFormer），预测模块（MotionFormer、OccFormer），规划模块（指令导航、Occ矫正轨迹）。

全景分割：对前景进行实例分割，对背景进行语义分割。

前景 thing queries --> 车道、边界和人行横道

背景 stuff queries --> 可行驶区域

3.4 损失函数

每个模块都有一个损失函数，第一阶段去训练Perception模块，；第二阶段冻结Perception模块，去训练Perception和Prediction和Planning所有模块，。

3.5 性能对比

消融实验证明各个模块都是不可或缺的，然后再去对比单个模块的性能。各个模块的对比这里不再展开。

整体对比

4. VAD算法详解

跟UniAD一样，也是一个纯视觉方案

4.1 算法动机&开创性思路

（1）栅格化表示计算量大，并且缺少关键的实例级结构信息；

（2）矢量化表示，计算方面效率高。

4.2 主体结构

包括特征提取、特征转换、矢量化场景学习、规划模块；

4.3 损失函数

自车的预测轨迹和gt之间是一个模仿学习的过程，所以添加了一个模仿学习的loss，，即轨迹与gt之间的回归误差。

总的loss的话，还需要加上地图重建的loss和每个agent运动预测的loss(位置预测、类别分类、多模态轨迹的预测和得分)，当前自车轨迹与其他agent避免碰撞的loss，自车避免撞到边界的loss，自车与车道的方向一致的loss。

4.4 性能对比

开环指标

闭环仿真指标

运行时间

4.5 VADv2优化了什么

自车在某个场景下可能有多个表现，但是模型训练出来，可能学到了一个中间轨迹，会导致与其他agent发生碰撞。

所以，（1）提出，在训练集中的这些轨迹应该赋予一个权重，以什么样的概率去学习，所以在训练集中计算轨迹概率分布去约束训练的情况；

（2）同时将训练集中的轨迹进行了最远点采样，作为轨迹词典，将其作为token给到transformer，从而提升规划模块的效果。

5. UAD算法详解

没有模块化和人工标注的

5.1 算法动机

（1）现存方法的标注和计算开销过大，所以本篇没有人工标注的需求

（2）感知模块的标注不是提升规划性能的关键，扩大数据量才是关键。只对数据量扩大但不增加标注成本。

5.2 开创性思路

（1）无监督代理任务

（2）自监督方向感知策略

5.3 主体结构

5.3.1 无监督的代理任务Angular Perception Pretext

输入是一个环视的图像，通过GroundingDINO（开集检测器，在训练集中10个类别的数据，但是验证集中有多出来的其他类别也要要求能检测出来），然后得到BEV特征，经过Dreaming Decoder得到预测结果与刚才说获取的标签去计算一个loss（二分类交叉loss）

用于对物体预测的Dreaming decoder的整体结构是：初始化K个角度的Query，BEV特征被分成了K个区域跟Query一一对应，经过GRU模块（用t-1时刻的Query和当前时刻t的特征F去计算当前时刻t的Query），用t时刻的特征和t时刻的Query做一个CrossAttention得到下一时刻的特征。即自回归的一种方式。Query之间对平均值和方差进行一个DreamingLoss，让其分布尽量相似。

5.3.2 利用方向感知的规划模块Direction Aware Planning

包含三个部分

（1）PlanningHead规划头（通过模仿学习来计算未来轨迹，对BEV特征进行旋转，过规划头得到响应的预测轨迹，然后GT也要旋转，两者得到一个模仿学习的loss。）

（2）Directional Augmentation方向增强（先对轨迹沿着车辆行驶方向划分为直行、左转、右转，然后通过这个预测头做一个三分类）

（3）Directional Consistency方向一致性（旋转后的特征得到的轨迹再旋转回去之后，跟之前的对比得到loss。）

5.4 损失函数

: 预测哪个扇形区域中是有物体的，对周围环境下障碍物信息的感知，二分类的交叉熵损失

: 对前后两帧之间的Query的分布做KL散度的Loss

: 模仿学习的loss

: 对控车信号的分类头（直行、左右转）的loss

: 方向一致性loss

5.5 性能对比

开环对比

闭环仿真指标对比

6. SparseDrive算法详解

6.1 算法动机

认为传统方法中BEV特征计算成本高

忽略了自车对周围代理的影响

场景信息是在agent周围提取，忽略了自车

运动预测和规划都是多模态问题，应该输出多种轨迹

6.2 开创性思路

探索了端到端自动驾驶的稀疏场景表示，并提出了一种以稀疏为中心的范式

修改了运动预测和规划之间的巨大相似性，提出了一种分层规划选择策略

6.3 主体结构

输入环视的6幅图像，输出是其他agent的预测和规划结果。

中途处理过程包括：特征提取、对称稀疏感知、平行运动规划三大模块。

在对称稀疏感知模块中，主要包含：稀疏检测、稀疏跟踪、稀疏在线建图任务，我们来具体看一下。

在平行运动规划器模块中：作者认为其他agent的轨迹预测和自车的轨迹预测应该是一个任务，并且是互相影响的。

6.4 损失函数

loss函数有：检测阶段的、map检测的、其他agent未来轨迹的、自车规划的、深度的loss

训练阶段分为两部分：stage1是从头开始训练对称稀疏感知模块，以学习稀疏场景表示；stage2是稀疏感知模块和并行运动规划器一起训练。

6.5 性能对比

7. ReasonNet算法详解

这是一个时序+多模态的方案，这篇论文对一些特殊的场景进行了考虑。

如图中，黄车视角中的红车被蓝车挡住，能否通过蓝车的行为来判断有红车的可能性。

7.1 算法动机

应该对驾驶场景的未来发展做出高保真的预测；

处理长尾分布中罕见不利事件，遮挡区域中未被发现但相关的物体。

7.2 开创性思路

提出一种新型的时间和全局推理网络，增加历史的场景推理，提高全局情景的感知性能；

提出一种新基准，由城市驾驶中各种遮挡场景所组成，用于系统性地评估遮挡事件。

7.3 主体结构

这篇文章是多模态的，所以其输入是图像输入和雷达点云的输入所组成的，输出是waypoints。

主体结构分为三个模块：

（1）感知模块，从Lidar和RGB数据中提取BEV特征；

（2）时间推理模块，处理时间信息并维护存储历史特征的存储库；

S用于计算存在Memory Bank中的历史特征和当前特征的相似度

（3）全局推理模块，捕获物体与环境之间的交互关系，以检测不利事件（如遮挡）并提高感知性能。

交互建模 ➡ 图注意网络（GAT）➡ 占据解码 ➡ 一致性损失

7.4 损失函数

首先是Preception模块，包括：Waypoints的回归loss，Traffic sign的分类loss，BEV Map分类+回归的loss;

二阶段有：一致性的loss，Traffic sign的loss，BEV Map的loss，占用图的loss。

7.5 性能对比

基于本文提出的新的benchmark叫做DOS benchmark：四种场景分别包含25种不同的情况，包括车辆和行人的遮挡，有间歇性遮挡和持续遮挡但有交互线索。

8. FusionAD算法详解

这是一篇多模态的方案，是在UniAD的基础上加入了点云数据，改造成了多模态的方案。

8.1 算法动机

（1）传统的模块化方法没办法支持梯度反传，会造成信息的丢失。

（2）UniAD只支持图像输入，不支持激光雷达信息。

8.2 开创性思路

（1）第一个统一的基于BEV多模态、多任务的端到端学习框架，重点关注自动驾驶的预测和规划任务；

（2）探索融合特征增强预测和规划任务，提出一个融合辅助模态感知预测和状态感知规划模块，称为FMSPnP。

8.3 主体结构

特征融合模块

预测模块

【名词解释】Anchor：在目标检测任务中，Anchor 是一种重要的概念，它指的是一组预定义的矩形框，这些框具有不同的尺寸、长宽比，用于在图像中表示潜在的目标对象。Anchor 的设计对于目标检测模型的性能至关重要，因为它们作为候选区域帮助模型更准确地定位和识别目标。

【名词解释】embed：通常指的是嵌入（embedding），它是一种将高维数据（如图像、文本或声音）转换为低维密集向量表示的方法。这些向量表示捕捉了数据的重要特征，通常用于机器学习模型的输入。例如，在自然语言处理中，单词或短语会被转换为词嵌入（word embeddings），这些嵌入能够捕捉单词的语义信息。在计算机视觉中，图像可以被转换为像素嵌入（pixel embeddings），这些嵌入包含了图像的视觉特征。

【名词解释】MLP：多层感知器（MLP，Multilayer Perceptron）是一种前馈人工神经网络模型，由多个神经元层组成，通常包括一个输入层、多个隐藏层和一个输出层。每个神经元会对输入数据进行加权求和，然后通过一个激活函数来引入非线性，使得 MLP 能够学习和模拟复杂的数据关系。

规划模块

新增一个自车信息的输入。

8.4 损失函数

与UniAD相比，将碰撞的loss进行了一个修改，在UniAD中的Lcol是预测的自车轨迹与其他agent的iou，这里的话，换成了预测的轨迹与其他车辆的轨迹沿中心点画一个圆，计算中心点的距离，以此来计算loss。

训练的时候，比UniAD多了一个阶段，stage1：BEV+感知；əstage2：冻结BEV+感知+预测+规划；əstage3：占用+规划+冻结其他部分。

8.5 性能对比

加入激光数据之后的性能比UniAD没加入激光的表现好。

9. Hydra-MDP算法详解

CVPR2024端到端自动驾驶挑战赛冠军+多模态方案，具备多个目标的多头蒸馏。

9.1 算法动机

比赛背景：（1）开环下的端到端驾驶有着各种问题；（2）nuScenes数据并非为规划设计，没有考虑到规划的一些场景；（3）NAVSIM对自车进行模拟，指标的计算考虑与其他车辆、道路的位置关系。

（1）轨迹回放带来的监督有限；

（2）推理时加不可微分的后处理。

我们先来对比下目前三种主流的方式：

第一种范式，我们之前讲的UAD、VAD都是这种范式，规划模块预测一个单模的规划输出；同时用于监督的也是一个单目标。具体来讲就是预测一条规划轨迹，并且这条规划轨迹的gt是由人驾的多个时刻的轨迹点来组成，大部分是用L2loss这种情况。

第二种范式，预测的轨迹是多模态的轨迹，监督它的目标是单一的目标，这个类似VADv2和SparseDrive这种方法，这种方法一般去监督与gt轨迹最近的一条轨迹。问题是这种轨迹是轨迹回放出来的，而不是车辆此时此刻走出来的轨迹，同一场景下，司机开的轨迹不一定是唯一和最优的，也就是说可能有好几条最优轨迹，但是如果只有一条司机开出来的轨迹作为gt进行轨迹的回归监督，监督是有限的，是弱监督。体现出了监督的有限性，而且没考虑到监督的安全、交通规则、舒适、效率。而且这个后处理模块，由于在后推理时用了感知模块的输入，当感知模块有问题的时候，信息传递就会出现误差累积，这个后处理模块本身是不可微分的，所以会造成信息的损失。

本文作者提出的新的范式，就是规划模块是多模的输出，同时，目标也是多样性的，即不仅是GT的轨迹也同时引入了更多的正样本，由不同的专家给出的。此外，将后处理的模块变成了可微分的用于训练的神经网络的模块，从而消除了第二种范式中由于不可微分而带来的信息损失的情况。

9.2 开创性思路

（1）引入了更多的正样本，由不同专家给出；

（2）感知真值引入规划模块用于训练。

9.3 主体结构

第一部分是感知的信息处理融合和提取，第二个模块是用前面得到的特征去解码出轨迹，最后一个模块是多目标学习范式部分。

感知模块用的Transfuser的baseline

轨迹解码器：计算不同的预测轨迹与GT轨迹的距离，这里用的是L2，用这个距离做softmax，然后去产生不同轨迹的得分情况，从而去监督得分。

多目标多头蒸馏模块：我们看到轨迹模仿学习之后的轨迹还过了其他的MLP，这就是其他头，它的目标也是不一样的，第一个是跟碰撞相关的，第二个是跟行驶区域相关的，第三个是跟舒适度相关的，也就是说不同的评判指标都有一个teacher，之前的模仿学习就是人类的teacher，那么这些teacher是怎么来的呢？怎么通过这些teacher来蒸馏的呢？我们看下作者是怎么去做的，首先我们得到规划词表Planning Vocabulary之后，对规划词表进行了一个模拟（用感知模块的GT进行训练的），有了这两个之后，我们就能算出来这些评估指标，从而计算每条轨迹的得分。总结一下就是对整个训练数据集的规划词汇进行离线模拟，在训练过程中引入每条轨迹的模拟分数的监督。