将要上市的自动驾驶新书《自动驾驶系统开发》中摘录各章片段 4

第十三章车联网

数字化设备正变得越来越普遍并且相互联系。这些设备向数字生态系统智能部分的演进创造了迄今为止尚未解决安全问题的新颖应用。一个特定的例子是车辆，随着车辆从简单的交通方式发展到具有新的感知和通讯功能的智能实体，就成为智能城市的活跃成员。

在第三章3.1.7节已经简单介绍了车联网（V2X）的基础，即DSRC和Cellular-V2X通信技术。车联网包括通过V2V（车对车），V2I（车对基础设施）和V2P（车对行人）交互而与公共网络进行通信的车辆，其收集和实时共享有关路网状况的关键信息。

使用车载单元，车辆可以彼此（V2V）和与路边单元（V2I）进行通信。这可以实现多种其他形式的通信，例如车对宽带云（V2B）（其中车与监视数据中心进行通信），车对人（V2H）这种脆弱的道路使用者即行人或自行车进行通信，或者车辆对传感器（V2S）即车辆与环境中嵌入的传感器进行通信。

对于自动驾驶的车辆而言，和高清地图的作用类似，车联网本身就是一种传感器的延伸，可以看成为"传感器"。

与自动驾驶技术中常用的摄像头或激光雷达相比，V2X技术具备突破视觉死角和跨越遮挡物获取信息的能力，同时也可以和其他车辆及设施共享实时驾驶状态信息，还可以通过研判算法产生预测信息。另外，V2X是唯一不受天气状况影响的"传感器"技术，无论雨、雾或强光照射都不会影响其正常工作。因此V2X技术广泛应用于交通运输尤其是自动驾驶领域。

本章介绍车联网在自动驾驶应用的技术。13.1讨论智能网联汽车（CAV）的发展；13.2介绍车联网的社交特性及其AI元素；13.3对各种边缘计算进行分析；13.4则讨论车辆-路端的协同方法；13.5介绍车辆通过车联网进行协同感知的技术；13.6讨论编组车队的规划与控制。

关于感知协同的分析片段：

"

第十四章神经渲染

合成照片级逼真的图像和视频是计算机图形学的核心，也是几十年来研究的焦点。传统意义上，场景的合成图像是用渲染算法（如光栅化或光线跟踪）生成的，这些算法将特别定义的几何和材质属性表示作为输入。总的来说，这些输入定义了实际场景和渲染的内容，称为场景表征（场景由一个或多个目标组成）。用可微分渲染的损失函数从观测中重建这样的场景表征被称为逆图形学或逆渲染。

神经渲染是一个迅速兴起的领域，它可以紧凑地表示场景，通过神经网络从现有的观察中学习渲染。神经渲染的主要思想是将经典（基于物理学的）计算机图形学的见解与深度学习的最新进展相结合。与经典计算机图形学类似，神经渲染的目标是以一种可控的方式生成照片般真实的图像。例如，新视点合成、重打光、场景变形和合成。

"神经渲染 "这个术语经常被用于两个不同的概念。第一种范式，是神经网络被训练为从一些2-D输入信号（如语义标签或栅格化的智体几何）直接映射到输出图像，即把神经网络训练为一个渲染引擎。而另外一种范式，是一个神经网络代表一个特定场景的形状或外观，并且代表用一个传统的图形 "引擎 "进行渲染，是以分析而不是学习方式去定义。与之前的范式不同，这个神经网络并不学习如何渲染，而是学习以3-D方式表征一个场景，然后根据图像生成的物理学原理渲染该场景。神经辐射场（NeRF）就是这样的技术之一，其利用体渲染生成场景图像。

本章14.1是原始NeRF理论介绍，14.2讨论NeRF的加速方法，包括自动积分（AutoInt）方法和Plenoxels模型，而14.3是讨论动态场景的渲染技术，在14.4分析重打光方法， 14.5介绍NeRF的泛化问题，最后14.6介绍最新的质量改进方法。

关于NeRF的泛化分析片段：

'

第十五章扩散模型

给定感兴趣分布的观测样本x，生成模型的目标是学习对其真实数据分布p(x)建模。一旦完成学习，可以根据该近似模型随意生成新的样本。此外，在某些公式下，能够用学习模型来评估观测或采样数据的似然。

生成对抗网络（GAN）对复杂分布的采样过程进行建模，以对抗方式学习。另一类生成模型被称为"基于似然"，试图学习一种为观测数据样本分配一个高似然的模型，包括自回归（AR）模型、归一化流（NF）和变分自编码器（VAE）。有一种类似的方法，是基于能量的建模（EBM），其中一个分布被学习为一个任意灵活的能量函数，然后归一化。

深度学习中生成模型类根据隐含参数随机生成观测结果。然而，目前的生成模型面临四大问题，即生成过程缓慢（采样效率低）、数据处理类型单一（泛化能力弱）、次优的似然和模型需要降维等。

最近，扩散模型凭借其强大的生成能力，成为生成模型的热门之一。应用领域包括计算机视觉、语音生成、生物信息学和自然语言处理等。

迄今为止，在计算机视觉领域中，扩散模型已被应用于各种生成式建模任务，如图像生成（image generation）、图像超分（mage super-resolution）、图像修复（image inpainting）、图像编辑（image editing）和图像翻译（image-to-image translation）等。此外，扩散模型学习的潜表征在鉴别性任务中也很有用，例如图像分割、分类和异常检测。

扩散概率模型最初是由非平衡热力学（non-equilibrium thermodynamics）启发而提出的潜变量生成模型。这类模型由两个过程组成，第一个是正向过程，在多个尺度上添加噪声，逐步干扰数据分布。然后，第二个是反向过程，学习恢复数据结构。

本章涉及扩散模型的理论和应用。15.1讨论带Langevin动力学的基于分数生成网络；15.2介绍去噪扩散概率模型；15.3分析去噪扩散隐式模型（DDIMs）；15.4则讨论封装以前方法的SDE框架；15.5介绍扩散模型在图像和视频合成的应用；15.6讨论另一个应用图像-图像翻译；15.7介绍扩散模型的应用文本-图像/视频生成； 15.8总结扩散模型的一些改进方法。

关于文本-到-图像/视频合成的讨论片段：

---完----