VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

摘要

零样本异常检测(ZSAD)要求在无法获取目标类别异常样本的情况下检测并定位异常 。主流方法依赖于视觉-语言模型(VLM,例如 CLIP):它们为正常和异常语义构建手工设计或可学习的提示(Prompt)集,然后计算图像-文本的相似度以进行开集判别 。虽然这种范式很有效,但它依赖于文本编码器和跨模态对齐,这可能会导致训练不稳定和参数冗余 。本研究重新审视了 ZSAD 中文本分支的必要性,并提出了 VisualAD,这是一个建立在视觉 Transformer(ViT)基础上的纯视觉框架 。我们在冻结的主干网络中引入了两个可学习的 Token,直接对正常和异常进行编码 。通过多层自注意力机制,这些 Token 与图像块(Patch)Token 进行交互,在引导图像块突出异常相关线索的同时,逐渐获得关于正常和异常的高级概念 。此外,我们还结合了空间感知交叉注意力(SCA)模块和轻量级的自对齐函数(SAF):SCA 将细粒度的空间信息注入到 Token 中,而 SAF 则在进行异常评分之前对图像块特征进行重新校准 。VisualAD 在横跨工业和医疗领域的 13 个零样本异常检测基准数据集上均取得了最先进(SOTA)的性能,并且能够无缝适配预训练的视觉主干网络,如 CLIP 图像编码器和 DINOv2 。

she

设计了两个token 用来计算异常和正常的相似度。

相关推荐
quetalangtaosha3 天前
Anomaly Detection系列(CVPR2025 Odd-One-Out论文解读)
人工智能·计算机视觉·异常检测
quetalangtaosha4 天前
Anomaly Detection系列(CVPR2025 DeCo-Diff论文解读)
人工智能·计算机视觉·异常检测
Coovally AI模型快速验证6 天前
YOLO训练可以偷懒?Anti-Forgetting Sampling跳过已学会的图片加速收敛
人工智能·yolo·视觉检测·异常检测·工业质检
这张生成的图像能检测吗11 天前
(论文速读)基于混合学习的边缘计算物联网系统操作视觉质量检测
人工智能·深度学习·物联网·智能制造·异常检测
这张生成的图像能检测吗12 天前
(论文速读)MoECLIP:零射异常检测补丁专家
人工智能·深度学习·计算机视觉·异常检测·clip·zero-shot方法
阿钱真强道18 天前
34 Python 离群点检测:什么是离群点?为什么要做异常检测?
python·sklearn·异常检测·异常·离群点检测
喵手2 个月前
Python爬虫实战:数据质量治理实战 - 构建企业级规则引擎与异常检测系统!
爬虫·python·爬虫实战·异常检测·零基础python爬虫教学·数据质量治理·企业级规则引擎
何如千泷4 个月前
【论文阅读】MediCLIP: Adapting CLIP for Few-shot Medical Image Anomaly Detection
论文阅读·异常检测·clip
心 爱心 爱5 个月前
Shape-Guided Dual-Memory Learning for 3D Anomaly Detection 论文精读
计算机视觉·3d·异常检测·工业异常检测·三维异常检测·多模态工业异常检测·二维异常检测