《FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving》
🔹 研究动机
-
现有自动驾驶中的 视觉语言模型 (VLMs) 常通过 文本 Chain-of-Thought (CoT) 来推理,但这种方法高度抽象,容易造成:
- 时空关系模糊(难以捕捉车辆与环境的动态交互)
- 细粒度信息丢失(如车道、障碍物的空间关系)
- 模态转换鸿沟(视觉 → 文本 → 推理,过程不自然)
-
人类驾驶员往往是 直接想象未来场景的视觉图景,而不是将其转化为语言再推理。
-
作者提出:自动驾驶更应基于 视觉化的"模拟与想象" 来进行推理,而非仅依赖符号化的语言逻辑。
🔹 方法(FSDrive 框架)
论文提出 FSDrive ,核心创新点是 时空视觉链式推理 (Spatio-Temporal CoT):
-
统一预训练范式
- 结合视觉理解 (VQA) 和视觉生成 (未来帧预测),激活 VLM 的图像生成能力。
- 在不大改架构的前提下,将图像 token 加入词表,使模型能同时预测文字与图像。
-
渐进式视觉生成 (Progressive CoT)
- 先生成 粗粒度物理约束(车道线、3D检测框),确保物理合理性。
- 再生成 完整未来帧,补充细节。
-
时空 CoT 推理
-
用统一图像帧表示未来世界状态:
- 空间关系:未来车道线 + 3D目标框
- 时间关系:未来普通帧(展示动态演化)
-
将此作为中间推理步骤,使模型能作为 逆动力学模型,在观测与未来预测的基础上规划轨迹。
-
-
训练策略
-
两阶段:
- 阶段 1:统一预训练(VQA + 未来帧生成 + 渐进式 CoT)。
- 阶段 2:有监督微调(场景理解 + 轨迹规划)。
-
🔹 实验
-
数据集:nuScenes(轨迹规划 & 未来帧生成),DriveLM(场景理解)。
-
指标:
- 轨迹规划:L2 误差、碰撞率
- 生成:FID(图像质量)
- 场景理解:BLEU、ROUGE、CIDEr、ChatGPT评分
-
主要结果:
- 轨迹规划性能超过现有 SOTA(如 UniAD、Doe-1、OminiDrive),在 L2 和碰撞率上均优。
- 未来帧生成:比 diffusion-based 方法接近甚至更优,FID=10.1(优于 Doe-1 的15.9)。
- 场景理解:在 DriveLM 上综合得分领先 OminiDrive。
- 消融实验表明:
- 时空 CoT 比文本/图文 CoT 在避免碰撞率方面显著提升(降低 31%)。
- 渐进式生成 明显提升未来帧质量。
- VQA + 未来帧联合预训练能增强物理规律建模。
🔹 结论
- FSDrive 首次提出 视觉化时空 CoT 推理,使模型"像人类一样用画面思考"。
- 将 VLM 同时作为 世界模型 (预测未来)和 逆动力学模型(规划轨迹),建立端到端的视觉推理管道。
- 实验证明:FSDrive 在规划、生成、理解三方面都取得了新的 SOTA 性能。
- 局限性:目前仅预测前视图,未来可扩展到 360° 全景;此外还需考虑伦理与实时性问题。
《 When Color-Space Decoupling Meets Diffusion for Adverse-Weather Image Restoration》
一作南京理工
1. 动机 / 问题背景
1.1 任务背景 --- 恶劣天气图像恢复(Adverse Weather Image Restoration, AWIR)
- 在自然场景中,雨、雾、雪、眩光等天气会对图像造成复杂、多样的退化(比如对比度降低、细节模糊、颜色失真、遮挡、反射等)。
- 这种退化对下游视觉任务(如检测、分割、自动驾驶中的感知)会严重干扰。
- 理想的目标是设计一个 "全能" 的恢复方法,能统一应对多种不同类型的天气退化(而不必为每一种天气独立训练模型)。
已有方法大致可以归为两类:
-
退化无关 (degradation-agnostic) 方法:一个统一网络试图在 RGB 空间或其他表示下同时处理多种退化。优点是简洁、统一;但随着退化种类越来越复杂,模型容易失去泛化能力或对少见情况表现不佳。
-
提示 / prompt 学习 + 可调机制 的方法:利用 vision--language 模型(如 CLIP 等)或可学习 prompt 来为不同的退化生成条件,促使网络根据退化"类型"自适应处理。优点是具有一定灵活性,但缺点是一旦提示估计不准确或在复杂/混合退化下提示不稳定,则恢复结果可能不一致或失真。
论文指出,这两类方法都存在不足:
- 退化无关模型在遇到极端或组合退化场景时可能 "折中" 过度,表现下降;
- Prompt 式方法高度依赖退化估计的准确性,提示误差会传导至恢复阶段,导致重建不可靠。
因此,该论文希望设计一种既能统一处理多种天气,又不依赖不稳定提示的模型,并且能更好地利用图像中"退化规律"的结构特性。
1.2 关键观察 / 启示 --- 颜色空间中的解耦潜力
作者做了一个启发性的实验:将 RGB 图像转至 YCbCr 颜色空间,观察天气退化在亮度 (Y) 通道与色度 (Cb/Cr) 通道上的分布差异。
- 结果表明:天气导致的主要退化 (如雾、雨、光散射等)在 亮度通道 Y 上更为显著;而 色度通道(Cb、Cr) 相对受干扰较少,主要是轻微模糊或噪声,而非大幅度失真。
- 用"将清晰图像的 Y 通道替换到退化图像上" 的实验可以大幅提升 PSNR,这暗示了:如果能够单独修复 Y 通道,再将较干净的色度部分保留 / 适度处理,是一个有希望的方向。
基于这个观察,作者提出:在 YCbCr 空间中 解耦亮度与色度,使模型专注于亮度的恢复;然后再结合扩散模型做精细修复,从而减小搜索空间、提升稳定性,同时避免对提示的强依赖。
2. 方法 / 模型架构
论文提出一个名为 LCDiff 的框架,其核心由两个模块组成:Lumina-Chroma 分解网络 (LCDN) 和 Lumina 引导扩散模型 (LGDM) 。最后还引入 动态时间步损失 (Dynamic Time Step Loss, DTS) 来优化扩散过程。并且,作者构建了一个新的驾驶场景全天气恢复数据集 DriveWeather 以评估。
下面是方法细节。
2.1 整体流程概览
输入一个退化的 RGB 图像 XdX_dXd。
- 将其转换为 YCbCr 空间,分成亮度 XlumX_{lum}Xlum(Y 通道)和色度 XchromX_{chrom}Xchrom(Cb/Cr 两通道)。
- 用 LCDN 分别恢复亮度通道(除退化成分)与色度通道(保持色度真实性),得到恢复后的 X^lum\hat{X}{lum}X^lum 和 X^chrom\hat{X}{chrom}X^chrom。
- 将 X^lum\hat{X}{lum}X^lum + X^chrom\hat{X}{chrom}X^chrom 拼接作为初步恢复图像输入到 扩散网络 (LGDM),并在扩散模型的反向采样过程中 以亮度信息作为条件 (conditioning) 来指导恢复过程。
- 在训练扩散网络时,除了普通的去噪损失外,加入 动态时间步损失 以平衡低频和高频成分的恢复能力。
这种设计使得 color (Cb/Cr) 部分不必经历完全的扩散生成,而更多地依赖其原始结构 + 轻微修正;而真正需要强恢复的是亮度部分。
下面分别看两个模块与损失设计。
2.2 模块详解
2.2.1 LCDN:Lumina-Chroma 分解网络
目标:把退化图像在 YCbCr 空间中解耦成亮度通道(受退化严重影响)和色度通道(受影响较轻),分别处理。
-
亮度恢复模块 (Luminance Restoration Module, LRM)
直接对 XlumX_{lum}Xlum 做恢复,去除雨、雾等在亮度上的影响。作者选择使用 NAFNet 结构(带有像素注意力、通道注意力机制)来增强捕捉结构和细节的能力。
-
色度恢复模块 (Frequency Chrominance Restoration Module, FCRM)
因为色度通道主要受轻微变模糊、颜色漂移等影响,作者不直接在像素域上大幅改动,而是通过频域分解来处理不同频率成分:
- 对 XchromX_{chrom}Xchrom 做 2D Fourier 变换得到频域表示。
- 使用低频掩码 MlM_lMl 与高频掩码 MhM_hMh 将频域分割为低频部分 XlX_lXl 与高频部分 XhX_hXh。
- 对低频部分采取空间注意力 (spatial attention) 调整以保持全局一致性;对高频部分采取通道注意力 (channel attention) 以增强纹理细节。
- 将调整后的低 / 高频重构回色度通道,再用一个通道交叉注意 (channel cross-attention) 将全局 / 局部信息融合以得到最终 X^chrom\hat{X}_{chrom}X^chrom。
-
LCDN 的损失
采用复合损失:
Lres=η⋅Lℓ1+θ⋅LSSIM+λ⋅LFFT L_{\mathrm{res}} = \eta \cdot L_{\ell_1} + \theta \cdot L_{\mathrm{SSIM}} + \lambda \cdot L_{\mathrm{FFT}} Lres=η⋅Lℓ1+θ⋅LSSIM+λ⋅LFFT
即由像素级 L1L_1L1,结构相似性 (SSIM) 损失,以及频域损失共同驱动。
这样,LCDN 提供一个"初步恢复"的图像,其在亮度上去退化,在色度上保持本来结构 + 适度修正。
2.2.2 LGDM:Lumina 引导扩散模型
任务:对 LCDN 的输出进行进一步生成/细化,补充高频细节与纹理,纠正残余缺陷。
-
前向扩散 (Forward Diffusion)
将 LCDN 输出添加噪声,逐步变成较高噪声图像 xtx_txt,这是标准的 DDPM/扩散模型过程。
-
反向去噪 (Reverse Denoising / 生成)
在反向过程中,将亮度信息 X^lum\hat{X}_{lum}X^lum 作为条件输入(conditioning),以引导网络朝向与恢复亮度一致的轨迹。这样扩散网络就不会盲目地在色度 / 结构上偏离。
换句话说,模型学习分布 pθ(xt−1∣xt,X^lum)p_\theta(x_{t-1} \mid x_t, \hat{X}_{lum})pθ(xt−1∣xt,X^lum)。
-
损失设计
- DDPM 去噪损失 :在每个时间步让网络预测噪声 ε\varepsilonε,与真实噪声最小化差异。
- 动态时间步损失 (DTS Loss) :因为标准扩散模型通常更容易恢复低频内容(高频细节恢复较慢或偏弱),作者设计一个随时间步变化的加权损失,使得在早期阶段更注重低频一致性,而在后期阶段更倾向高频细节。具体做法是,将中间恢复结果与真实图像进行小波分解(wavelet 分解),分别得到低频成分与高频成分,然后用 MSE 和 SSIM 对应地对低 / 高频做度量,再用时间相关的权重 ωt\omega_tωt 平衡两者。
这种设计确保扩散网络既不忽略整体结构(低频),也能逐步强化高频细节。
2.3 DriveWeather 数据集
为了评估模型在真实驾驶场景下的性能,作者构建了 DriveWeather 数据集,其特点:
- 包含七类典型恶劣天气条件:dense fog(浓雾)、rainfog(雨雾组合)、overcast(阴天)、rainstreaks(雨带)、puddles(水坑反射)、droplets(镜头水滴)、glare(眩光)。
- 每种天气有 5 个强度级别(轻到重),以模拟从弱到极端的退化。
- 总共 29,750 对齐的图像对,其中训练集 28,000 对,测试集 1,750 对。
- 图像分辨率约为 1280×720。
- 严格对齐、校准与人工校验以减少配准误差、保持真实度。
作者还在论文中将该数据集与已有的 AWIR / 多天气恢复基准(如 All-Weather、CDD11 等)进行对比实验。
3. 实验设计
下面是作者在实验部分的设计要点。
3.1 实现细节
- 模型使用 PyTorch 实现。
- 扩散网络使用 DDIM / DDPM 的采样方式。
- 训练迭代次数较长(例如 800K 步,在多个 GPU 上训练)。
- 对比方法包括经典的单天气恢复方法、多天气恢复方法,以及最新的 prompt 驱动或扩散模型方法(如 MoCE-IR、OneRestore 等)。
- 在多个基准(DriveWeather、All-Weather、CDD11 等)上做定量指标与视觉对比。
- 同时附带消融实验:分别去掉 / 替换模块(如无 FCRM、无 DTS、无 conditioning、不同颜色空间等)观察性能下降。
3.2 定量指标
常见指标包括 PSNR(峰值信噪比)和 SSIM(结构相似性指数)。此外还会在不同天气 / 不同强度下分组报告性能,以观察模型在极端情况下的稳健性。
3.3 消融 / 对比实验
- 替换不同颜色空间(RGB、HSV、YCbCr)作为分解空间,验证 YCbCr 架构优越性。
- 只使用 LCDN(不做扩散) vs 只用扩散 vs 两者结合。
- 去掉动态时间步损失 (DTS)、去掉 conditioning(亮度引导)、去掉 FCRM 或 LRM 的效果。
- 不同权重参数(如动态权重函数中的 k 值)对性能的影响。
- 在各种天气条件 / 极端强度下的效果对比。
4. 实验结果与结论
下面总结该论文报告的一些主要结果、发现与结论。
4.1 定量表现
-
在多个基准(如 CDD11、All-Weather、DriveWeather)上,LCDiff 的 PSNR / SSIM 均优于现有最先进方法。
- 在 CDD11 上,相比 MoCE-IR 提升了 ~+1.6 dB(PSNR)和 +0.6(SSIM)左右。
- 在 DriveWeather 的不同天气 & 强度组合下,LCDiff 在整体平均上也显著领先。
-
在混合退化场景(例如雨 + 雾混叠)或极端强度下,LCDiff 的表现相对更稳定,出现伪影、颜色漂移、结构损失较少。
-
使用 YCbCr 作为分解空间,比直接在 RGB/HSV 空间处理有明显提升(如 +2--3% 的 PSNR / +0.5--1.0 的 SSIM)--- 这验证了作者的 "亮度主导退化" 假设。
4.2 视觉效果
- 在多个示例图像中,LCDiff 的恢复图像结构清晰、边缘锐利、颜色自然,较少出现 "过度泛化" 或 "伪影" 问题。
- 特别是在有混合天气、重雾、雨滴等复杂场景下,LCDiff 能较好去除雾 / 雨的影响,同时保留背景细节与纹理。
- 在色彩还原方面,保持了较好的色度一致性,不会因扩散生成而产生明显偏色。
4.3 消融 / 模块作用
通过消融实验,作者得出以下结论:
- LCDN 本身就具有很强恢复能力:单独使用 LCDN(无扩散细化)就已经得到不错结果。
- FCRM(色度模块) 虽然对结构恢复影响较少,但对抑制色度漂移 / 保持颜色一致性有重要作用。若去掉 FCRM,会导致色彩异常或模糊。
- 扩散模块 (LGDM) 能进一步提升高频纹理表现,改善细节;若没有扩散,仅用 LCDN 会在纹理细节处稍显不足。
- 亮度引导 (conditioning) 对扩散过程的稳定性与一致性至关重要;若不引导,扩散可能在色度 / 结构上偏差很大。
- 动态时间步损失 (DTS) 的加入有效改善低 / 高频恢复的不平衡。去掉该机制会导致整体 PSNR / SSIM 均有下降。
- 在颜色空间选择方面,使用 YCbCr 明显优于 RGB 或 HSV。
此外,作者还对参数(如动态加权函数中的 k)做了调优,并展示其对性能的敏感性。
4.4 局限性 / 未来方向
论文中也提到一些局限与未来可能的改进方向:
- 在极端严重的雾 / 雪 /遮挡情况下,如果原始图像信息丢失严重,模型仍然难以完全恢复远景或被完全遮挡区域的细节。
- 扩散模型本身计算开销较大,在高分辨率、实时处理场景可能存在效率瓶颈。
- 虽然色度通道受影响较小,但在某些极端光照 / 色彩退化场景下,色度调整仍可能不够理想。
- 模型对新天气类型 / 未见强度的泛化能力还有进一步验证空间。
总结
- 该论文的核心创新在于:将恶劣天气退化主要归因于亮度 (Y) 通道,并在 YCbCr 空间中对亮度与色度进行分解处理 ,然后利用 引导型扩散模型 对亮度引导恢复,从而避免对提示条件 / prompt 的强依赖,同时改善恢复质量与稳定性。
- 方法设计比较清晰:先用 deterministic 网络 (LCDN) 做粗恢复,再用条件扩散 (LGDM) 做细化,辅以动态损失平衡低 / 高频恢复。
- 实验结果显示该方法在多个基准上都取得了领先性能,特别是在混合 / 极端天气场景中更稳定。
- 消融分析也支持各个模块(色度模块、亮度引导、动态损失)确实对性能有贡献。
- 局限在于极端信息缺失的场景依然困难,以及扩散网络的计算成本可能在实际应用中成为瓶颈。