深度学习在自动驾驶上应用（二）

《FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving》

🔹 研究动机

现有自动驾驶中的 视觉语言模型 (VLMs) 常通过 文本 Chain-of-Thought (CoT) 来推理，但这种方法高度抽象，容易造成：
- 时空关系模糊（难以捕捉车辆与环境的动态交互）
- 细粒度信息丢失（如车道、障碍物的空间关系）
- 模态转换鸿沟（视觉 → 文本 → 推理，过程不自然）
人类驾驶员往往是 直接想象未来场景的视觉图景，而不是将其转化为语言再推理。
作者提出：自动驾驶更应基于 视觉化的"模拟与想象" 来进行推理，而非仅依赖符号化的语言逻辑。

🔹 方法（FSDrive 框架）

论文提出 FSDrive ，核心创新点是 时空视觉链式推理 (Spatio-Temporal CoT)：

统一预训练范式
- 结合视觉理解 (VQA) 和视觉生成 (未来帧预测)，激活 VLM 的图像生成能力。
- 在不大改架构的前提下，将图像 token 加入词表，使模型能同时预测文字与图像。
渐进式视觉生成 (Progressive CoT)
- 先生成 粗粒度物理约束（车道线、3D检测框），确保物理合理性。
- 再生成 完整未来帧，补充细节。
时空 CoT 推理
- 用统一图像帧表示未来世界状态：
  - 空间关系：未来车道线 + 3D目标框
  - 时间关系：未来普通帧（展示动态演化）
- 将此作为中间推理步骤，使模型能作为 逆动力学模型，在观测与未来预测的基础上规划轨迹。
训练策略
- 两阶段：
  - 阶段 1：统一预训练（VQA + 未来帧生成 + 渐进式 CoT）。
  - 阶段 2：有监督微调（场景理解 + 轨迹规划）。

🔹 实验

数据集：nuScenes（轨迹规划 & 未来帧生成），DriveLM（场景理解）。
指标：
- 轨迹规划：L2 误差、碰撞率
- 生成：FID（图像质量）
- 场景理解：BLEU、ROUGE、CIDEr、ChatGPT评分
主要结果：
- 轨迹规划性能超过现有 SOTA（如 UniAD、Doe-1、OminiDrive），在 L2 和碰撞率上均优。
- 未来帧生成：比 diffusion-based 方法接近甚至更优，FID=10.1（优于 Doe-1 的15.9）。
- 场景理解：在 DriveLM 上综合得分领先 OminiDrive。
- 消融实验表明：
  - 时空 CoT 比文本/图文 CoT 在避免碰撞率方面显著提升（降低 31%）。
  - 渐进式生成 明显提升未来帧质量。
  - VQA + 未来帧联合预训练能增强物理规律建模。

🔹 结论

FSDrive 首次提出 视觉化时空 CoT 推理，使模型"像人类一样用画面思考"。
将 VLM 同时作为 世界模型 （预测未来）和 逆动力学模型（规划轨迹），建立端到端的视觉推理管道。
实验证明：FSDrive 在规划、生成、理解三方面都取得了新的 SOTA 性能。
局限性：目前仅预测前视图，未来可扩展到 360° 全景；此外还需考虑伦理与实时性问题。

《 When Color-Space Decoupling Meets Diffusion for Adverse-Weather Image Restoration》

一作南京理工

1. 动机 / 问题背景

1.1 任务背景 --- 恶劣天气图像恢复（Adverse Weather Image Restoration, AWIR）

在自然场景中，雨、雾、雪、眩光等天气会对图像造成复杂、多样的退化（比如对比度降低、细节模糊、颜色失真、遮挡、反射等）。
这种退化对下游视觉任务（如检测、分割、自动驾驶中的感知）会严重干扰。
理想的目标是设计一个 "全能" 的恢复方法，能统一应对多种不同类型的天气退化（而不必为每一种天气独立训练模型）。

已有方法大致可以归为两类：

退化无关 (degradation-agnostic) 方法：一个统一网络试图在 RGB 空间或其他表示下同时处理多种退化。优点是简洁、统一；但随着退化种类越来越复杂，模型容易失去泛化能力或对少见情况表现不佳。
提示 / prompt 学习 + 可调机制 的方法：利用 vision--language 模型（如 CLIP 等）或可学习 prompt 来为不同的退化生成条件，促使网络根据退化"类型"自适应处理。优点是具有一定灵活性，但缺点是一旦提示估计不准确或在复杂/混合退化下提示不稳定，则恢复结果可能不一致或失真。

论文指出，这两类方法都存在不足：

退化无关模型在遇到极端或组合退化场景时可能 "折中" 过度，表现下降；
Prompt 式方法高度依赖退化估计的准确性，提示误差会传导至恢复阶段，导致重建不可靠。

因此，该论文希望设计一种既能统一处理多种天气，又不依赖不稳定提示的模型，并且能更好地利用图像中"退化规律"的结构特性。

1.2 关键观察 / 启示 --- 颜色空间中的解耦潜力

作者做了一个启发性的实验：将 RGB 图像转至 YCbCr 颜色空间，观察天气退化在亮度 (Y) 通道与色度 (Cb/Cr) 通道上的分布差异。

结果表明：天气导致的主要退化 （如雾、雨、光散射等）在 亮度通道 Y 上更为显著；而 色度通道（Cb、Cr） 相对受干扰较少，主要是轻微模糊或噪声，而非大幅度失真。
用"将清晰图像的 Y 通道替换到退化图像上" 的实验可以大幅提升 PSNR，这暗示了：如果能够单独修复 Y 通道，再将较干净的色度部分保留 / 适度处理，是一个有希望的方向。

基于这个观察，作者提出：在 YCbCr 空间中 解耦亮度与色度，使模型专注于亮度的恢复；然后再结合扩散模型做精细修复，从而减小搜索空间、提升稳定性，同时避免对提示的强依赖。

2. 方法 / 模型架构

论文提出一个名为 LCDiff 的框架，其核心由两个模块组成：Lumina-Chroma 分解网络 (LCDN) 和 Lumina 引导扩散模型 (LGDM) 。最后还引入 动态时间步损失 (Dynamic Time Step Loss, DTS) 来优化扩散过程。并且，作者构建了一个新的驾驶场景全天气恢复数据集 DriveWeather 以评估。

下面是方法细节。

2.1 整体流程概览

输入一个退化的 RGB 图像 XdX_dXd。

将其转换为 YCbCr 空间，分成亮度 XlumX_{lum}Xlum（Y 通道）和色度 XchromX_{chrom}Xchrom（Cb/Cr 两通道）。
用 LCDN 分别恢复亮度通道（除退化成分）与色度通道（保持色度真实性），得到恢复后的 X^lum\hat{X}{lum}X^lum 和 X^chrom\hat{X}{chrom}X^chrom。
将 X^lum\hat{X}{lum}X^lum + X^chrom\hat{X}{chrom}X^chrom 拼接作为初步恢复图像输入到 扩散网络 （LGDM），并在扩散模型的反向采样过程中 以亮度信息作为条件 (conditioning) 来指导恢复过程。
在训练扩散网络时，除了普通的去噪损失外，加入 动态时间步损失 以平衡低频和高频成分的恢复能力。

这种设计使得 color (Cb/Cr) 部分不必经历完全的扩散生成，而更多地依赖其原始结构 + 轻微修正；而真正需要强恢复的是亮度部分。

下面分别看两个模块与损失设计。

2.2 模块详解

2.2.1 LCDN：Lumina-Chroma 分解网络

目标：把退化图像在 YCbCr 空间中解耦成亮度通道（受退化严重影响）和色度通道（受影响较轻），分别处理。

亮度恢复模块 (Luminance Restoration Module, LRM)

直接对 XlumX_{lum}Xlum 做恢复，去除雨、雾等在亮度上的影响。作者选择使用 NAFNet 结构（带有像素注意力、通道注意力机制）来增强捕捉结构和细节的能力。
色度恢复模块 (Frequency Chrominance Restoration Module, FCRM)

因为色度通道主要受轻微变模糊、颜色漂移等影响，作者不直接在像素域上大幅改动，而是通过频域分解来处理不同频率成分：
1. 对 XchromX_{chrom}Xchrom 做 2D Fourier 变换得到频域表示。
2. 使用低频掩码 MlM_lMl 与高频掩码 MhM_hMh 将频域分割为低频部分 XlX_lXl 与高频部分 XhX_hXh。
3. 对低频部分采取空间注意力 (spatial attention) 调整以保持全局一致性；对高频部分采取通道注意力 (channel attention) 以增强纹理细节。
4. 将调整后的低 / 高频重构回色度通道，再用一个通道交叉注意 (channel cross-attention) 将全局 / 局部信息融合以得到最终 X^chrom\hat{X}_{chrom}X^chrom。
LCDN 的损失

采用复合损失：

Lres=η⋅Lℓ1+θ⋅LSSIM+λ⋅LFFT L_{\mathrm{res}} = \eta \cdot L_{\ell_1} + \theta \cdot L_{\mathrm{SSIM}} + \lambda \cdot L_{\mathrm{FFT}} Lres=η⋅Lℓ1+θ⋅LSSIM+λ⋅LFFT

即由像素级 L1L_1L1，结构相似性 (SSIM) 损失，以及频域损失共同驱动。

这样，LCDN 提供一个"初步恢复"的图像，其在亮度上去退化，在色度上保持本来结构 + 适度修正。

2.2.2 LGDM：Lumina 引导扩散模型

任务：对 LCDN 的输出进行进一步生成/细化，补充高频细节与纹理，纠正残余缺陷。

前向扩散 (Forward Diffusion)

将 LCDN 输出添加噪声，逐步变成较高噪声图像 xtx_txt，这是标准的 DDPM/扩散模型过程。
反向去噪 (Reverse Denoising / 生成)

在反向过程中，将亮度信息 X^lum\hat{X}_{lum}X^lum 作为条件输入（conditioning），以引导网络朝向与恢复亮度一致的轨迹。这样扩散网络就不会盲目地在色度 / 结构上偏离。

换句话说，模型学习分布 pθ(xt−1∣xt,X^lum)p_\theta(x_{t-1} \mid x_t, \hat{X}_{lum})pθ(xt−1∣xt,X^lum)。
损失设计
1. DDPM 去噪损失 ：在每个时间步让网络预测噪声 ε\varepsilonε，与真实噪声最小化差异。
2. 动态时间步损失 (DTS Loss) ：因为标准扩散模型通常更容易恢复低频内容（高频细节恢复较慢或偏弱），作者设计一个随时间步变化的加权损失，使得在早期阶段更注重低频一致性，而在后期阶段更倾向高频细节。具体做法是，将中间恢复结果与真实图像进行小波分解（wavelet 分解），分别得到低频成分与高频成分，然后用 MSE 和 SSIM 对应地对低 / 高频做度量，再用时间相关的权重 ωt\omega_tωt 平衡两者。

这种设计确保扩散网络既不忽略整体结构（低频），也能逐步强化高频细节。

2.3 DriveWeather 数据集

为了评估模型在真实驾驶场景下的性能，作者构建了 DriveWeather 数据集，其特点：

包含七类典型恶劣天气条件：dense fog（浓雾）、rainfog（雨雾组合）、overcast（阴天）、rainstreaks（雨带）、puddles（水坑反射）、droplets（镜头水滴）、glare（眩光）。
每种天气有 5 个强度级别（轻到重），以模拟从弱到极端的退化。
总共 29,750 对齐的图像对，其中训练集 28,000 对，测试集 1,750 对。
图像分辨率约为 1280×720。
严格对齐、校准与人工校验以减少配准误差、保持真实度。

作者还在论文中将该数据集与已有的 AWIR / 多天气恢复基准（如 All-Weather、CDD11 等）进行对比实验。

3. 实验设计

下面是作者在实验部分的设计要点。

3.1 实现细节

模型使用 PyTorch 实现。
扩散网络使用 DDIM / DDPM 的采样方式。
训练迭代次数较长（例如 800K 步，在多个 GPU 上训练）。
对比方法包括经典的单天气恢复方法、多天气恢复方法，以及最新的 prompt 驱动或扩散模型方法（如 MoCE-IR、OneRestore 等）。
在多个基准（DriveWeather、All-Weather、CDD11 等）上做定量指标与视觉对比。
同时附带消融实验：分别去掉 / 替换模块（如无 FCRM、无 DTS、无 conditioning、不同颜色空间等）观察性能下降。

3.2 定量指标

常见指标包括 PSNR（峰值信噪比）和 SSIM（结构相似性指数）。此外还会在不同天气 / 不同强度下分组报告性能，以观察模型在极端情况下的稳健性。

3.3 消融 / 对比实验

替换不同颜色空间（RGB、HSV、YCbCr）作为分解空间，验证 YCbCr 架构优越性。
只使用 LCDN（不做扩散） vs 只用扩散 vs 两者结合。
去掉动态时间步损失 (DTS)、去掉 conditioning（亮度引导）、去掉 FCRM 或 LRM 的效果。
不同权重参数（如动态权重函数中的 k 值）对性能的影响。
在各种天气条件 / 极端强度下的效果对比。

4. 实验结果与结论

下面总结该论文报告的一些主要结果、发现与结论。

4.1 定量表现

在多个基准（如 CDD11、All-Weather、DriveWeather）上，LCDiff 的 PSNR / SSIM 均优于现有最先进方法。
- 在 CDD11 上，相比 MoCE-IR 提升了 ~+1.6 dB（PSNR）和 +0.6（SSIM）左右。
- 在 DriveWeather 的不同天气 & 强度组合下，LCDiff 在整体平均上也显著领先。
在混合退化场景（例如雨 + 雾混叠）或极端强度下，LCDiff 的表现相对更稳定，出现伪影、颜色漂移、结构损失较少。
使用 YCbCr 作为分解空间，比直接在 RGB/HSV 空间处理有明显提升（如 +2--3% 的 PSNR / +0.5--1.0 的 SSIM）--- 这验证了作者的 "亮度主导退化" 假设。

4.2 视觉效果

在多个示例图像中，LCDiff 的恢复图像结构清晰、边缘锐利、颜色自然，较少出现 "过度泛化" 或 "伪影" 问题。
特别是在有混合天气、重雾、雨滴等复杂场景下，LCDiff 能较好去除雾 / 雨的影响，同时保留背景细节与纹理。
在色彩还原方面，保持了较好的色度一致性，不会因扩散生成而产生明显偏色。

4.3 消融 / 模块作用

通过消融实验，作者得出以下结论：

LCDN 本身就具有很强恢复能力：单独使用 LCDN（无扩散细化）就已经得到不错结果。
FCRM（色度模块） 虽然对结构恢复影响较少，但对抑制色度漂移 / 保持颜色一致性有重要作用。若去掉 FCRM，会导致色彩异常或模糊。
扩散模块 (LGDM) 能进一步提升高频纹理表现，改善细节；若没有扩散，仅用 LCDN 会在纹理细节处稍显不足。
亮度引导 (conditioning) 对扩散过程的稳定性与一致性至关重要；若不引导，扩散可能在色度 / 结构上偏差很大。
动态时间步损失 (DTS) 的加入有效改善低 / 高频恢复的不平衡。去掉该机制会导致整体 PSNR / SSIM 均有下降。
在颜色空间选择方面，使用 YCbCr 明显优于 RGB 或 HSV。

此外，作者还对参数（如动态加权函数中的 k）做了调优，并展示其对性能的敏感性。

4.4 局限性 / 未来方向

论文中也提到一些局限与未来可能的改进方向：

在极端严重的雾 / 雪 /遮挡情况下，如果原始图像信息丢失严重，模型仍然难以完全恢复远景或被完全遮挡区域的细节。
扩散模型本身计算开销较大，在高分辨率、实时处理场景可能存在效率瓶颈。
虽然色度通道受影响较小，但在某些极端光照 / 色彩退化场景下，色度调整仍可能不够理想。
模型对新天气类型 / 未见强度的泛化能力还有进一步验证空间。

总结

该论文的核心创新在于：将恶劣天气退化主要归因于亮度 (Y) 通道，并在 YCbCr 空间中对亮度与色度进行分解处理 ，然后利用 引导型扩散模型 对亮度引导恢复，从而避免对提示条件 / prompt 的强依赖，同时改善恢复质量与稳定性。
方法设计比较清晰：先用 deterministic 网络 (LCDN) 做粗恢复，再用条件扩散 (LGDM) 做细化，辅以动态损失平衡低 / 高频恢复。
实验结果显示该方法在多个基准上都取得了领先性能，特别是在混合 / 极端天气场景中更稳定。
消融分析也支持各个模块（色度模块、亮度引导、动态损失）确实对性能有贡献。
局限在于极端信息缺失的场景依然困难，以及扩散网络的计算成本可能在实际应用中成为瓶颈。