深度学习在自动驾驶上应用(二)

《FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving》

🔹 研究动机

  • 现有自动驾驶中的 视觉语言模型 (VLMs) 常通过 文本 Chain-of-Thought (CoT) 来推理,但这种方法高度抽象,容易造成:

    • 时空关系模糊(难以捕捉车辆与环境的动态交互)
    • 细粒度信息丢失(如车道、障碍物的空间关系)
    • 模态转换鸿沟(视觉 → 文本 → 推理,过程不自然)
  • 人类驾驶员往往是 直接想象未来场景的视觉图景,而不是将其转化为语言再推理。

  • 作者提出:自动驾驶更应基于 视觉化的"模拟与想象" 来进行推理,而非仅依赖符号化的语言逻辑。

🔹 方法(FSDrive 框架)

论文提出 FSDrive ,核心创新点是 时空视觉链式推理 (Spatio-Temporal CoT)

  1. 统一预训练范式

    • 结合视觉理解 (VQA) 和视觉生成 (未来帧预测),激活 VLM 的图像生成能力。
    • 在不大改架构的前提下,将图像 token 加入词表,使模型能同时预测文字与图像。
  2. 渐进式视觉生成 (Progressive CoT)

    • 先生成 粗粒度物理约束(车道线、3D检测框),确保物理合理性。
    • 再生成 完整未来帧,补充细节。
  3. 时空 CoT 推理

    • 用统一图像帧表示未来世界状态:

      • 空间关系:未来车道线 + 3D目标框
      • 时间关系:未来普通帧(展示动态演化)
    • 将此作为中间推理步骤,使模型能作为 逆动力学模型,在观测与未来预测的基础上规划轨迹。

  4. 训练策略

    • 两阶段:

      • 阶段 1:统一预训练(VQA + 未来帧生成 + 渐进式 CoT)。
      • 阶段 2:有监督微调(场景理解 + 轨迹规划)。

🔹 实验

  • 数据集:nuScenes(轨迹规划 & 未来帧生成),DriveLM(场景理解)。

  • 指标

    • 轨迹规划:L2 误差、碰撞率
    • 生成:FID(图像质量)
    • 场景理解:BLEU、ROUGE、CIDEr、ChatGPT评分
  • 主要结果

    • 轨迹规划性能超过现有 SOTA(如 UniAD、Doe-1、OminiDrive),在 L2 和碰撞率上均优。
    • 未来帧生成:比 diffusion-based 方法接近甚至更优,FID=10.1(优于 Doe-1 的15.9)。
    • 场景理解:在 DriveLM 上综合得分领先 OminiDrive。
    • 消融实验表明:
      • 时空 CoT 比文本/图文 CoT 在避免碰撞率方面显著提升(降低 31%)。
      • 渐进式生成 明显提升未来帧质量。
      • VQA + 未来帧联合预训练能增强物理规律建模。

🔹 结论

  • FSDrive 首次提出 视觉化时空 CoT 推理,使模型"像人类一样用画面思考"。
  • 将 VLM 同时作为 世界模型 (预测未来)和 逆动力学模型(规划轨迹),建立端到端的视觉推理管道。
  • 实验证明:FSDrive 在规划、生成、理解三方面都取得了新的 SOTA 性能。
  • 局限性:目前仅预测前视图,未来可扩展到 360° 全景;此外还需考虑伦理与实时性问题。

《 When Color-Space Decoupling Meets Diffusion for Adverse-Weather Image Restoration》

一作南京理工

1. 动机 / 问题背景

1.1 任务背景 --- 恶劣天气图像恢复(Adverse Weather Image Restoration, AWIR)

  • 在自然场景中,雨、雾、雪、眩光等天气会对图像造成复杂、多样的退化(比如对比度降低、细节模糊、颜色失真、遮挡、反射等)。
  • 这种退化对下游视觉任务(如检测、分割、自动驾驶中的感知)会严重干扰。
  • 理想的目标是设计一个 "全能" 的恢复方法,能统一应对多种不同类型的天气退化(而不必为每一种天气独立训练模型)。

已有方法大致可以归为两类:

  1. 退化无关 (degradation-agnostic) 方法:一个统一网络试图在 RGB 空间或其他表示下同时处理多种退化。优点是简洁、统一;但随着退化种类越来越复杂,模型容易失去泛化能力或对少见情况表现不佳。

  2. 提示 / prompt 学习 + 可调机制 的方法:利用 vision--language 模型(如 CLIP 等)或可学习 prompt 来为不同的退化生成条件,促使网络根据退化"类型"自适应处理。优点是具有一定灵活性,但缺点是一旦提示估计不准确或在复杂/混合退化下提示不稳定,则恢复结果可能不一致或失真。

论文指出,这两类方法都存在不足:

  • 退化无关模型在遇到极端或组合退化场景时可能 "折中" 过度,表现下降;
  • Prompt 式方法高度依赖退化估计的准确性,提示误差会传导至恢复阶段,导致重建不可靠。

因此,该论文希望设计一种既能统一处理多种天气,又不依赖不稳定提示的模型,并且能更好地利用图像中"退化规律"的结构特性。

1.2 关键观察 / 启示 --- 颜色空间中的解耦潜力

作者做了一个启发性的实验:将 RGB 图像转至 YCbCr 颜色空间,观察天气退化在亮度 (Y) 通道与色度 (Cb/Cr) 通道上的分布差异。

  • 结果表明:天气导致的主要退化 (如雾、雨、光散射等)在 亮度通道 Y 上更为显著;而 色度通道(Cb、Cr) 相对受干扰较少,主要是轻微模糊或噪声,而非大幅度失真。
  • 用"将清晰图像的 Y 通道替换到退化图像上" 的实验可以大幅提升 PSNR,这暗示了:如果能够单独修复 Y 通道,再将较干净的色度部分保留 / 适度处理,是一个有希望的方向。

基于这个观察,作者提出:在 YCbCr 空间中 解耦亮度与色度,使模型专注于亮度的恢复;然后再结合扩散模型做精细修复,从而减小搜索空间、提升稳定性,同时避免对提示的强依赖。


2. 方法 / 模型架构

论文提出一个名为 LCDiff 的框架,其核心由两个模块组成:Lumina-Chroma 分解网络 (LCDN)Lumina 引导扩散模型 (LGDM) 。最后还引入 动态时间步损失 (Dynamic Time Step Loss, DTS) 来优化扩散过程。并且,作者构建了一个新的驾驶场景全天气恢复数据集 DriveWeather 以评估。

下面是方法细节。

2.1 整体流程概览

输入一个退化的 RGB 图像 XdX_dXd。

  1. 将其转换为 YCbCr 空间,分成亮度 XlumX_{lum}Xlum(Y 通道)和色度 XchromX_{chrom}Xchrom(Cb/Cr 两通道)。
  2. LCDN 分别恢复亮度通道(除退化成分)与色度通道(保持色度真实性),得到恢复后的 X^lum\hat{X}{lum}X^lum 和 X^chrom\hat{X}{chrom}X^chrom。
  3. 将 X^lum\hat{X}{lum}X^lum + X^chrom\hat{X}{chrom}X^chrom 拼接作为初步恢复图像输入到 扩散网络 (LGDM),并在扩散模型的反向采样过程中 以亮度信息作为条件 (conditioning) 来指导恢复过程。
  4. 在训练扩散网络时,除了普通的去噪损失外,加入 动态时间步损失 以平衡低频和高频成分的恢复能力。

这种设计使得 color (Cb/Cr) 部分不必经历完全的扩散生成,而更多地依赖其原始结构 + 轻微修正;而真正需要强恢复的是亮度部分。

下面分别看两个模块与损失设计。

2.2 模块详解

2.2.1 LCDN:Lumina-Chroma 分解网络

目标:把退化图像在 YCbCr 空间中解耦成亮度通道(受退化严重影响)和色度通道(受影响较轻),分别处理。

  • 亮度恢复模块 (Luminance Restoration Module, LRM)

    直接对 XlumX_{lum}Xlum 做恢复,去除雨、雾等在亮度上的影响。作者选择使用 NAFNet 结构(带有像素注意力、通道注意力机制)来增强捕捉结构和细节的能力。

  • 色度恢复模块 (Frequency Chrominance Restoration Module, FCRM)

    因为色度通道主要受轻微变模糊、颜色漂移等影响,作者不直接在像素域上大幅改动,而是通过频域分解来处理不同频率成分:

    1. 对 XchromX_{chrom}Xchrom 做 2D Fourier 变换得到频域表示。
    2. 使用低频掩码 MlM_lMl 与高频掩码 MhM_hMh 将频域分割为低频部分 XlX_lXl 与高频部分 XhX_hXh。
    3. 对低频部分采取空间注意力 (spatial attention) 调整以保持全局一致性;对高频部分采取通道注意力 (channel attention) 以增强纹理细节。
    4. 将调整后的低 / 高频重构回色度通道,再用一个通道交叉注意 (channel cross-attention) 将全局 / 局部信息融合以得到最终 X^chrom\hat{X}_{chrom}X^chrom。
  • LCDN 的损失

    采用复合损失:

    Lres=η⋅Lℓ1+θ⋅LSSIM+λ⋅LFFT L_{\mathrm{res}} = \eta \cdot L_{\ell_1} + \theta \cdot L_{\mathrm{SSIM}} + \lambda \cdot L_{\mathrm{FFT}} Lres=η⋅Lℓ1+θ⋅LSSIM+λ⋅LFFT

    即由像素级 L1L_1L1,结构相似性 (SSIM) 损失,以及频域损失共同驱动。

这样,LCDN 提供一个"初步恢复"的图像,其在亮度上去退化,在色度上保持本来结构 + 适度修正。

2.2.2 LGDM:Lumina 引导扩散模型

任务:对 LCDN 的输出进行进一步生成/细化,补充高频细节与纹理,纠正残余缺陷。

  • 前向扩散 (Forward Diffusion)

    将 LCDN 输出添加噪声,逐步变成较高噪声图像 xtx_txt,这是标准的 DDPM/扩散模型过程。

  • 反向去噪 (Reverse Denoising / 生成)

    在反向过程中,将亮度信息 X^lum\hat{X}_{lum}X^lum 作为条件输入(conditioning),以引导网络朝向与恢复亮度一致的轨迹。这样扩散网络就不会盲目地在色度 / 结构上偏离。

    换句话说,模型学习分布 pθ(xt−1∣xt,X^lum)p_\theta(x_{t-1} \mid x_t, \hat{X}_{lum})pθ(xt−1∣xt,X^lum)。

  • 损失设计

    1. DDPM 去噪损失 :在每个时间步让网络预测噪声 ε\varepsilonε,与真实噪声最小化差异。
    2. 动态时间步损失 (DTS Loss) :因为标准扩散模型通常更容易恢复低频内容(高频细节恢复较慢或偏弱),作者设计一个随时间步变化的加权损失,使得在早期阶段更注重低频一致性,而在后期阶段更倾向高频细节。具体做法是,将中间恢复结果与真实图像进行小波分解(wavelet 分解),分别得到低频成分与高频成分,然后用 MSE 和 SSIM 对应地对低 / 高频做度量,再用时间相关的权重 ωt\omega_tωt 平衡两者。

这种设计确保扩散网络既不忽略整体结构(低频),也能逐步强化高频细节。

2.3 DriveWeather 数据集

为了评估模型在真实驾驶场景下的性能,作者构建了 DriveWeather 数据集,其特点:

  • 包含七类典型恶劣天气条件:dense fog(浓雾)、rainfog(雨雾组合)、overcast(阴天)、rainstreaks(雨带)、puddles(水坑反射)、droplets(镜头水滴)、glare(眩光)。
  • 每种天气有 5 个强度级别(轻到重),以模拟从弱到极端的退化。
  • 总共 29,750 对齐的图像对,其中训练集 28,000 对,测试集 1,750 对。
  • 图像分辨率约为 1280×720。
  • 严格对齐、校准与人工校验以减少配准误差、保持真实度。

作者还在论文中将该数据集与已有的 AWIR / 多天气恢复基准(如 All-Weather、CDD11 等)进行对比实验。


3. 实验设计

下面是作者在实验部分的设计要点。

3.1 实现细节

  • 模型使用 PyTorch 实现。
  • 扩散网络使用 DDIM / DDPM 的采样方式。
  • 训练迭代次数较长(例如 800K 步,在多个 GPU 上训练)。
  • 对比方法包括经典的单天气恢复方法、多天气恢复方法,以及最新的 prompt 驱动或扩散模型方法(如 MoCE-IR、OneRestore 等)。
  • 在多个基准(DriveWeather、All-Weather、CDD11 等)上做定量指标与视觉对比。
  • 同时附带消融实验:分别去掉 / 替换模块(如无 FCRM、无 DTS、无 conditioning、不同颜色空间等)观察性能下降。

3.2 定量指标

常见指标包括 PSNR(峰值信噪比)和 SSIM(结构相似性指数)。此外还会在不同天气 / 不同强度下分组报告性能,以观察模型在极端情况下的稳健性。

3.3 消融 / 对比实验

  • 替换不同颜色空间(RGB、HSV、YCbCr)作为分解空间,验证 YCbCr 架构优越性。
  • 只使用 LCDN(不做扩散) vs 只用扩散 vs 两者结合。
  • 去掉动态时间步损失 (DTS)、去掉 conditioning(亮度引导)、去掉 FCRM 或 LRM 的效果。
  • 不同权重参数(如动态权重函数中的 k 值)对性能的影响。
  • 在各种天气条件 / 极端强度下的效果对比。

4. 实验结果与结论

下面总结该论文报告的一些主要结果、发现与结论。

4.1 定量表现

  • 在多个基准(如 CDD11、All-Weather、DriveWeather)上,LCDiff 的 PSNR / SSIM 均优于现有最先进方法。

    • 在 CDD11 上,相比 MoCE-IR 提升了 ~+1.6 dB(PSNR)和 +0.6(SSIM)左右。
    • 在 DriveWeather 的不同天气 & 强度组合下,LCDiff 在整体平均上也显著领先。
  • 在混合退化场景(例如雨 + 雾混叠)或极端强度下,LCDiff 的表现相对更稳定,出现伪影、颜色漂移、结构损失较少。

  • 使用 YCbCr 作为分解空间,比直接在 RGB/HSV 空间处理有明显提升(如 +2--3% 的 PSNR / +0.5--1.0 的 SSIM)--- 这验证了作者的 "亮度主导退化" 假设。

4.2 视觉效果

  • 在多个示例图像中,LCDiff 的恢复图像结构清晰、边缘锐利、颜色自然,较少出现 "过度泛化" 或 "伪影" 问题。
  • 特别是在有混合天气、重雾、雨滴等复杂场景下,LCDiff 能较好去除雾 / 雨的影响,同时保留背景细节与纹理。
  • 在色彩还原方面,保持了较好的色度一致性,不会因扩散生成而产生明显偏色。

4.3 消融 / 模块作用

通过消融实验,作者得出以下结论:

  1. LCDN 本身就具有很强恢复能力:单独使用 LCDN(无扩散细化)就已经得到不错结果。
  2. FCRM(色度模块) 虽然对结构恢复影响较少,但对抑制色度漂移 / 保持颜色一致性有重要作用。若去掉 FCRM,会导致色彩异常或模糊。
  3. 扩散模块 (LGDM) 能进一步提升高频纹理表现,改善细节;若没有扩散,仅用 LCDN 会在纹理细节处稍显不足。
  4. 亮度引导 (conditioning) 对扩散过程的稳定性与一致性至关重要;若不引导,扩散可能在色度 / 结构上偏差很大。
  5. 动态时间步损失 (DTS) 的加入有效改善低 / 高频恢复的不平衡。去掉该机制会导致整体 PSNR / SSIM 均有下降。
  6. 在颜色空间选择方面,使用 YCbCr 明显优于 RGB 或 HSV。

此外,作者还对参数(如动态加权函数中的 k)做了调优,并展示其对性能的敏感性。

4.4 局限性 / 未来方向

论文中也提到一些局限与未来可能的改进方向:

  • 在极端严重的雾 / 雪 /遮挡情况下,如果原始图像信息丢失严重,模型仍然难以完全恢复远景或被完全遮挡区域的细节。
  • 扩散模型本身计算开销较大,在高分辨率、实时处理场景可能存在效率瓶颈。
  • 虽然色度通道受影响较小,但在某些极端光照 / 色彩退化场景下,色度调整仍可能不够理想。
  • 模型对新天气类型 / 未见强度的泛化能力还有进一步验证空间。

总结

  • 该论文的核心创新在于:将恶劣天气退化主要归因于亮度 (Y) 通道,并在 YCbCr 空间中对亮度与色度进行分解处理 ,然后利用 引导型扩散模型 对亮度引导恢复,从而避免对提示条件 / prompt 的强依赖,同时改善恢复质量与稳定性。
  • 方法设计比较清晰:先用 deterministic 网络 (LCDN) 做粗恢复,再用条件扩散 (LGDM) 做细化,辅以动态损失平衡低 / 高频恢复。
  • 实验结果显示该方法在多个基准上都取得了领先性能,特别是在混合 / 极端天气场景中更稳定。
  • 消融分析也支持各个模块(色度模块、亮度引导、动态损失)确实对性能有贡献。
  • 局限在于极端信息缺失的场景依然困难,以及扩散网络的计算成本可能在实际应用中成为瓶颈。
相关推荐
max50060039 分钟前
基于Meta Llama的二语习得学习者行为预测计算模型
人工智能·算法·机器学习·分类·数据挖掘·llama
mCell1 小时前
长期以来我对 LLM 的误解
深度学习·llm·ollama
月疯2 小时前
OPENCV摄像头读取视频
人工智能·opencv·音视频
极客天成ScaleFlash2 小时前
极客天成让统一存储从云原生‘进化’到 AI 原生: 不是版本升级,而是基因重组
人工智能·云原生
王哥儿聊AI2 小时前
Lynx:新一代个性化视频生成模型,单图即可生成视频,重新定义身份一致性与视觉质量
人工智能·算法·安全·机器学习·音视频·软件工程
_pinnacle_2 小时前
打开神经网络的黑箱(三) 卷积神经网络(CNN)的模型逻辑
人工智能·神经网络·cnn·黑箱·卷积网络
张较瘦_3 小时前
[论文阅读] 人工智能 + 软件工程 | 从“人工扒日志”到“AI自动诊断”:LogCoT框架的3大核心创新
论文阅读·人工智能·软件工程
lisw053 小时前
连接蓝牙时“无媒体信号”怎么办?
人工智能·机器学习·微服务
扫地的小何尚3 小时前
深度解析 CUDA-QX 0.4 加速 QEC 与求解器库
人工智能·语言模型·llm·gpu·量子计算·nvidia·cuda