VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer摘要 零样本异常检测(ZSAD)要求在无法获取目标类别异常样本的情况下检测并定位异常 。主流方法依赖于视觉-语言模型(VLM,例如 CLIP):它们为正常和异常语义构建手工设计或可学习的提示(Prompt)集,然后计算图像-文本的相似度以进行开集判别 。虽然这种范式很有效,但它依赖于文本编码器和跨模态对齐,这可能会导致训练不稳定和参数冗余 。本研究重新审视了 ZSAD 中文本分支的必要性,并提出了 VisualAD,这是一个建立在视觉 Transformer(ViT)基础上的纯视觉框架 。我们在冻结的主干