**无监督多类异常检测(UAD)**旨在仅利用正常样本建模,在测试时识别任意类别中的异常图像和像素区域。当前方法面临三大核心挑战:
- 依赖一类分类(OCC)假设:多数方法假定训练集中不含任何异常样本,但在实际工业或医疗场景中难以满足。
- 无法利用异常低频先验进行有效重建:传统扩散模型对整张图像加噪再去噪,导致正常区域细节丢失,影响异常定位精度。
- 缺乏针对异常区域的选择性修正机制:标准扩散过程不具备区分正常与异常的能力,易将异常区域误保留甚至强化。
本文提出一种重构型扩散模型DeCo-Diff,通过引入偏差校正机制,在MVTec-AD上实现像素级AUROC达98.4%,超越SOTA 14.1个百分点。
核心贡献
本文核心贡献如下:
- 首个面向多类无监督异常检测的偏差修正扩散模型,解决了"OCC假设失效"问题 ------ MVTec-AD图像级AUROC=99.3%。
- 提出随机掩码策略结合方向偏差预测机制,实现仅对异常区域进行选择性修正 ------ VisA像素级AUPRC提升至51.3 (+11.7pp)。
- 重新定义DDIM采样路径以适配偏差修正目标函数,提高推理效率同时保持稳定性 ------ 参数量相比DiAD减少约30%。
- 融合像素空间与潜在空间差异的几何平均策略,增强细粒度异常定位能力 ------ AUPRO达94.9 (+1.8pp)。
- 首次在扩散模型中引入Patch Shuffle增强策略模拟结构化异常,提升复杂纹理下的鲁棒性 ------ f1max提升达9.0pp。
相关工作综述
(一) 学习范式局限
现有方法主要包括:[重建类](如PaDiM、PatchCore),其核心思想是基于特征嵌入距离衡量异常程度,但局限在于"无法处理跨域纹理变化较大的样本 "及 "依赖固定统计分布假设,泛化能力弱"。
→ 本文改进:采用可学习偏差修正机制替代静态统计建模,动态捕捉正常模式。
(二) 多类扩展瓶颈
现有方法主要包括:[单类独立训练](如UniAD、MoEAD),其核心思路是对每一类单独建模,但局限在于存储与计算成本随类别线性增长 和难以共享共性特征表示。
→ 本文改进:统一建模所有正常类别的联合分布,避免重复训练。
(三) 扩散模型应用缺陷
现有方法主要包括:[直接应用DDPM于异常检测](如DiAD、GLAD),其核心思想是通过完整前向后向流程重构输入,但局限在于噪声全局施加破坏正常区域细节 和缺乏显式的局部上下文引导机制。
→ 本文改进:设计局部感知的偏差修正扩散框架,仅扰动异常区域并保留周围正常信息。
方法论详解
图1. 方法架构。训练阶段(上图)中,通过随机掩模和随机采样时间步长([1,T])对正常图像进行局部扩散处理。随后训练我们的DeCo-Diff模型以预测输入图像的偏差方向。推理阶段(下图)中,针对目标图像从时间步长T开始,DeCo-Diff模型逐步校正其与正常状态的偏差。
1. 偏差建模与方向预测模块
- 功能:用于从原始图像中分离出偏离正常分布的部分,并估计其应被修正的方向。
- 机制:通过VAE编码器将图像映射到潜变量空间,随后构建时间步t下潜变量z_t = z_0 + \\sqrt{1-\\bar{\\epsilon}_t}\\cdot\\varepsilon - (1 - \\bar{\\epsilon}_t)\\cdot z_0,其中\\varepsilon即为方向偏差DoD。
- 动机:该公式形式允许模型在不改变正常区域的前提下,仅对异常区域施加修正力;相较于传统DDPM更符合异常检测任务需求。
若采用分类方式判断是否异常,则会受限于预设阈值且难以建模连续变化;而DoD预测则能提供梯度信号指导渐进式修复。
2. 随机掩码与Patch Shuffle增强模块
- 功能:提升模型对多样化异常形态的学习能力。
- 机制:在前向过程中随机遮蔽部分潜变量patch,并替换同批次其他图像对应位置patch(比例由r_{shuffle}控制)。
- 动机:模拟现实中可能出现的各种结构性异常,使模型学会基于邻近正常区域恢复异常内容。
> 推测失败场景:当异常区域过于稀疏或与背景高度相似时,可能被误判为正常区域。
3. 多尺度差异融合定位模块
- 功能:综合图像层与潜变量层的信息生成高精度异常热力图。
- 机制:分别计算重构前后在像素空间x_0,\\tilde{x}_0与潜变量空间z_0,\\tilde{z}_0的距离,并取其几何均值作为最终得分a=\\sqrt{\\min(\|\|\\tilde{z}_0-z_0\|\|,\\rho_l)\\cdot\\min(\|\|\\tilde{x}_0-x_0\|\|,\\rho_p)}。
- 动机:像素级差异有助于捕捉颜色细微变化,而潜变量级差异则擅长发现结构层面的异常。
> 关键技术选择原因:为何选用几何平均而非算术平均?因为前者更能反映两个维度的一致性,防止某一维主导决策。
图2. 可视化结果。从上至下依次为:原始输入图像(含异常数据)、DeCo-Diff重建结果、真实标注掩膜及预测异常掩膜。示例展示两个数据集(左侧为MVTec-AD,右侧为VisA)及多种复杂程度异常数据的对比结果。
实验与验证
性能对比
图3. MVTec-AD数据集的定量评估结果。多类别异常检测的图像级与像素级分析结果。各指标最优方法以蓝色标示,次优方法以红色标示,与次优(或最优)方法的差异以灰色标示。
图4. VisA定量评估结果。多类异常检测的图像及像素级结果。最佳方法(按指标划分)以蓝色标示,红色表示次优方案。与次优(或最优)方案的差异(灰色标示)。
效率分析
-
相比DiAD减少约30%参数量;
-
使用DDIM加速推理,仅需4~8步即可完成高质量重构。
消融实验

| 设置 | AUROC ↓ | AUPRC ↓ |
|----------------------------|---------------|--------------|
| 移除随机掩码 | -1.2% | -3.8% |
|不使用Patch Shuffle | -0.9% | -2.1% |
|替换为像素差绝对值 | -1.8% | -6.9% |
|改用算术平均代替几何平均| -0.7% | -1.4% |
> 性能提升根本原因:偏差修正机制使得模型能够聚焦于真正需要修改的区域,从而大幅提升异常定位准确性。
结论与展望
贡献重申
- 提出偏差修正扩散模型DeCo-Diff,图像AUROC达99.3%。
- 引入随机掩码+Patch Shuffle增强策略,像素AUPRC达74.9%。
- 设计多尺度差异融合定位机制,AUPRO达94.9。
未来方向
- 探索动态阈值自适应调整机制;
- 将偏差修正思想拓展至视频异常检测领域;
- 构建轻量化版本支持边缘部署;
- 结合自监督预训练进一步提升泛化能力。
局限性
- 在无异常长视频中可能误报稀有正常事件;
- 对极端低对比度异常敏感,需额外后处理优化。