VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

Shuai@2026-03-23 15:16

摘要

零样本异常检测（ZSAD）要求在无法获取目标类别异常样本的情况下检测并定位异常。主流方法依赖于视觉-语言模型（VLM，例如 CLIP）：它们为正常和异常语义构建手工设计或可学习的提示（Prompt）集，然后计算图像-文本的相似度以进行开集判别。虽然这种范式很有效，但它依赖于文本编码器和跨模态对齐，这可能会导致训练不稳定和参数冗余。本研究重新审视了 ZSAD 中文本分支的必要性，并提出了 VisualAD，这是一个建立在视觉 Transformer（ViT）基础上的纯视觉框架。我们在冻结的主干网络中引入了两个可学习的 Token，直接对正常和异常进行编码。通过多层自注意力机制，这些 Token 与图像块（Patch）Token 进行交互，在引导图像块突出异常相关线索的同时，逐渐获得关于正常和异常的高级概念。此外，我们还结合了空间感知交叉注意力（SCA）模块和轻量级的自对齐函数（SAF）：SCA 将细粒度的空间信息注入到 Token 中，而 SAF 则在进行异常评分之前对图像块特征进行重新校准。VisualAD 在横跨工业和医疗领域的 13 个零样本异常检测基准数据集上均取得了最先进（SOTA）的性能，并且能够无缝适配预训练的视觉主干网络，如 CLIP 图像编码器和 DINOv2 。

she

设计了两个token 用来计算异常和正常的相似度。