Anomaly Detection系列(CVPR2025 DeCo-Diff论文解读)

Correcting Deviations from Normality: A Reformulated Diffusion Model for Multi-Class Unsupervised Anomaly Detection

**无监督多类异常检测(UAD)**旨在仅利用正常样本建模,在测试时识别任意类别中的异常图像和像素区域。当前方法面临三大核心挑战:

  1. 依赖一类分类(OCC)假设:多数方法假定训练集中不含任何异常样本,但在实际工业或医疗场景中难以满足。
  2. 无法利用异常低频先验进行有效重建:传统扩散模型对整张图像加噪再去噪,导致正常区域细节丢失,影响异常定位精度。
  3. 缺乏针对异常区域的选择性修正机制:标准扩散过程不具备区分正常与异常的能力,易将异常区域误保留甚至强化。

本文提出一种重构型扩散模型DeCo-Diff,通过引入偏差校正机制,在MVTec-AD上实现像素级AUROC达98.4%,超越SOTA 14.1个百分点。

核心贡献

本文核心贡献如下:

  • 首个面向多类无监督异常检测的偏差修正扩散模型,解决了"OCC假设失效"问题 ------ MVTec-AD图像级AUROC=99.3%。
  • 提出随机掩码策略结合方向偏差预测机制,实现仅对异常区域进行选择性修正 ------ VisA像素级AUPRC提升至51.3 (+11.7pp)。
  • 重新定义DDIM采样路径以适配偏差修正目标函数,提高推理效率同时保持稳定性 ------ 参数量相比DiAD减少约30%。
  • 融合像素空间与潜在空间差异的几何平均策略,增强细粒度异常定位能力 ------ AUPRO达94.9 (+1.8pp)。
  • 首次在扩散模型中引入Patch Shuffle增强策略模拟结构化异常,提升复杂纹理下的鲁棒性 ------ f1max提升达9.0pp。

相关工作综述

(一) 学习范式局限

现有方法主要包括:[重建类](如PaDiM、PatchCore),其核心思想是基于特征嵌入距离衡量异常程度,但局限在于"无法处理跨域纹理变化较大的样本 "及 "依赖固定统计分布假设,泛化能力弱"。

→ 本文改进:采用可学习偏差修正机制替代静态统计建模,动态捕捉正常模式。

(二) 多类扩展瓶颈

现有方法主要包括:[单类独立训练](如UniAD、MoEAD),其核心思路是对每一类单独建模,但局限在于存储与计算成本随类别线性增长难以共享共性特征表示

→ 本文改进:统一建模所有正常类别的联合分布,避免重复训练。

(三) 扩散模型应用缺陷

现有方法主要包括:[直接应用DDPM于异常检测](如DiAD、GLAD),其核心思想是通过完整前向后向流程重构输入,但局限在于噪声全局施加破坏正常区域细节缺乏显式的局部上下文引导机制

→ 本文改进:设计局部感知的偏差修正扩散框架,仅扰动异常区域并保留周围正常信息。

方法论详解

图1. 方法架构。训练阶段(上图)中,通过随机掩模和随机采样时间步长([1,T])对正常图像进行局部扩散处理。随后训练我们的DeCo-Diff模型以预测输入图像的偏差方向。推理阶段(下图)中,针对目标图像从时间步长T开始,DeCo-Diff模型逐步校正其与正常状态的偏差。

1. 偏差建模与方向预测模块

  • 功能:用于从原始图像中分离出偏离正常分布的部分,并估计其应被修正的方向。
  • 机制:通过VAE编码器将图像映射到潜变量空间,随后构建时间步t下潜变量z_t = z_0 + \\sqrt{1-\\bar{\\epsilon}_t}\\cdot\\varepsilon - (1 - \\bar{\\epsilon}_t)\\cdot z_0,其中\\varepsilon即为方向偏差DoD。
  • 动机:该公式形式允许模型在不改变正常区域的前提下,仅对异常区域施加修正力;相较于传统DDPM更符合异常检测任务需求。

若采用分类方式判断是否异常,则会受限于预设阈值且难以建模连续变化;而DoD预测则能提供梯度信号指导渐进式修复。

2. 随机掩码与Patch Shuffle增强模块

  • 功能:提升模型对多样化异常形态的学习能力。
  • 机制:在前向过程中随机遮蔽部分潜变量patch,并替换同批次其他图像对应位置patch(比例由r_{shuffle}控制)。
  • 动机:模拟现实中可能出现的各种结构性异常,使模型学会基于邻近正常区域恢复异常内容。

> 推测失败场景:当异常区域过于稀疏或与背景高度相似时,可能被误判为正常区域。

3. 多尺度差异融合定位模块

  • 功能:综合图像层与潜变量层的信息生成高精度异常热力图。
  • 机制:分别计算重构前后在像素空间x_0,\\tilde{x}_0与潜变量空间z_0,\\tilde{z}_0的距离,并取其几何均值作为最终得分a=\\sqrt{\\min(\|\|\\tilde{z}_0-z_0\|\|,\\rho_l)\\cdot\\min(\|\|\\tilde{x}_0-x_0\|\|,\\rho_p)}
  • 动机:像素级差异有助于捕捉颜色细微变化,而潜变量级差异则擅长发现结构层面的异常。

> 关键技术选择原因:为何选用几何平均而非算术平均?因为前者更能反映两个维度的一致性,防止某一维主导决策。
图2. 可视化结果。从上至下依次为:原始输入图像(含异常数据)、DeCo-Diff重建结果、真实标注掩膜及预测异常掩膜。示例展示两个数据集(左侧为MVTec-AD,右侧为VisA)及多种复杂程度异常数据的对比结果。

实验与验证

性能对比
图3. MVTec-AD数据集的定量评估结果。多类别异常检测的图像级与像素级分析结果。各指标最优方法以蓝色标示,次优方法以红色标示,与次优(或最优)方法的差异以灰色标示。 图4. VisA定量评估结果。多类异常检测的图像及像素级结果。最佳方法(按指标划分)以蓝色标示,红色表示次优方案。与次优(或最优)方案的差异(灰色标示)。

效率分析

  • 相比DiAD减少约30%参数量;

  • 使用DDIM加速推理,仅需4~8步即可完成高质量重构。

消融实验

| 设置 | AUROC ↓ | AUPRC ↓ |

|----------------------------|---------------|--------------|

| 移除随机掩码 | -1.2% | -3.8% |

|不使用Patch Shuffle | -0.9% | -2.1% |

|替换为像素差绝对值 | -1.8% | -6.9% |

|改用算术平均代替几何平均| -0.7% | -1.4% |

> 性能提升根本原因:偏差修正机制使得模型能够聚焦于真正需要修改的区域,从而大幅提升异常定位准确性。

结论与展望

贡献重申

  1. 提出偏差修正扩散模型DeCo-Diff,图像AUROC达99.3%。
  2. 引入随机掩码+Patch Shuffle增强策略,像素AUPRC达74.9%。
  3. 设计多尺度差异融合定位机制,AUPRO达94.9。

未来方向

  1. 探索动态阈值自适应调整机制;
  2. 将偏差修正思想拓展至视频异常检测领域;
  3. 构建轻量化版本支持边缘部署;
  4. 结合自监督预训练进一步提升泛化能力。

局限性

  1. 在无异常长视频中可能误报稀有正常事件;
  2. 对极端低对比度异常敏感,需额外后处理优化。
相关推荐
一只猿Hou2 小时前
【SpringAI教程】第一阶段: AI 应用工程化(基础入门)
人工智能
财经资讯数据_灵砚智能2 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年4月7日
人工智能·python·信息可视化·自然语言处理·ai编程
AI视觉网奇2 小时前
生成GeoGebra
人工智能·深度学习
deephub2 小时前
向量数据库对比:Pinecone、Chroma、Weaviate 的架构与适用场景
人工智能·python·大语言模型·embedding·向量检索
SteveSenna2 小时前
强化学习4.1:基于价值——Q-learning
人工智能·学习·算法·机器人
Linux猿2 小时前
植物病害图像数据集 YOLO 目标检测 | 可下载
人工智能·yolo·目标检测·yolo数据集·yolo目标检测·yolo目标检测数据集·植物病害图像数据集
Cosolar2 小时前
LangChain实战:基于Streamlit+ LangChain + Qwen 快速构建一个多会话AI聊天页面
人工智能·llm·agent
扬帆破浪2 小时前
麒麟系统安装察元 WPS AI 文档助手:免费、开源、离线部署说明
人工智能·开源·wps
古希腊掌管代码的神THU2 小时前
【清华代码熊】图解 Gemma 4 架构设计细节
人工智能·深度学习·自然语言处理