《PromptAD》实验步骤

训练阶段:

步骤1: 输入正常样本图像

输入 : 正常样本图像

操作 : 在视觉编码器(VV-CLIP)中提取全局特征(CLS特征)和局部特征(ViT块特征)。

输出: 视觉特征(全局特征 (z) 和局部特征 (F))。

步骤2: 构建提示

输入 : 正常对象名称(如"cable")、手动异常后缀(如"with crack")和随机初始化的可学习token。

操作 :

语义连接(SC) :

◦ 生成正常提示(NP): ([P_1][P_2]...[P_{E_N}][obj.])(可学习前缀+对象名)。

◦ 生成手动异常提示(MAP): 将NP与手动异常后缀拼接(如 ([P_1][P_2]...[P_{E_N}][obj.][with][crack]))。

◦ 生成可学习异常提示(LAP): 将NP与可学习后缀拼接(如 ([P_1][P_2]...[P_{E_N}][obj.][A_1]...[A_{E_A}]))。

文本编码器(CLIP Text Encoder) : 将NP、MAP、LAP编码为特征向量。

输出: 正常提示特征 (g(s^n))、异常提示特征 (g(s^m)) 和 (g(s^l))。

步骤3: 损失计算与优化

输入 : 视觉特征 (z)、提示特征 (g(sn))、(g(sm))、(g(s^l))。

操作 :

对比损失((\mathcal{L}_{\text{clip}})) : 最小化正常视觉特征与正常提示特征的距离,最大化其与异常提示特征的距离。

显式异常边界损失((\mathcal{L}_{\text{ema}})) : 通过超参数强制控制正常原型与异常原型的间隔。

对齐损失((\mathcal{L}_{\text{align}})) : 对齐MAP和LAP的分布。

优化器更新 : 仅更新提示参数(NP和LAP的token)。

输出: 优化后的提示参数。

步骤4: 存储正常特征记忆

输入 : 中间层局部特征 (F)。

操作 : 将训练集中所有正常样本的ViT中间层特征(去除CLS特征)存入内存 (R)。

输出: 正常特征记忆库 (R)。


测试阶段:

步骤1: 输入测试图像

输入 : 测试图像(正常或异常)。

操作 : 通过VV-CLIP提取全局特征 (z_t) 和局部特征 (F_t)。

输出: 测试视觉特征 (z_t) 和 (F_t)。

步骤2: 计算提示引导异常分数

输入 : 训练后的提示参数(NP、MAP、LAP)。

操作 :

文本编码器 : 生成正常原型 (\overline{w}^n) 和异常原型 (\overline{w}^a)。

相似度计算 :

◦ 图像级分数 (S_t = \frac{\exp(\langle z_t, \overline{w}^n \rangle)}{\exp(\langle z_t, \overline{w}^n \rangle) + \exp(\langle z_t, \overline{w}^a \rangle)})。

◦ 像素级分数图 (M_t = \text{softmax}(\langle F_t, \overline{w}^n \rangle - \langle F_t, \overline{w}^a \rangle))。

输出: 图像级分数 (S_t) 和像素级分数图 (M_t)。

步骤3: 计算视觉引导异常分数

输入 : 测试局部特征 (F_t) 和正常记忆库 (R)。

操作 : 对每个空间位置 ((i,j)),计算 (F_t[i,j]) 与 (R) 的最小余弦距离:

M_v\[i,j\] = \\min_{r \\in R} \\frac{1}{2}(1 - \\langle F_t\[i,j\], r \\rangle)

输出: 视觉引导分数图 (M_v)。

步骤4: 融合结果

输入 : (S_t)、(M_t)、(M_v)。

操作 :

像素级融合 : (M_{pix} = 1.0 / (1.0/M_v + 1.0/M_t))(调和平均)。

图像级融合 : (S_{img} = 1.0 / (1.0/\max(M_v) + 1.0/S_t))。

输出: 最终异常分数图 (M_{pix}) 和图像级分数 (S_{img})。


关键操作位置:

  1. 训练:在VV-CLIP视觉编码器和CLIP文本编码器中完成特征提取与提示学习。
  2. 测试:直接调用训练好的提示参数和内存库 (R),无需反向传播。
相关推荐
qq_4112624221 小时前
四博 AI 双目智能音箱方案:把“会说话的音箱”升级成“会表达、会感知、会控制”的 AI 终端
人工智能·智能音箱
努力努力再努力FFF21 小时前
跨境电商运营想用AI优化广告和选品,该从哪里开始学?
人工智能
Element_南笙21 小时前
VGG网络-深度学习经典架构解析
网络·深度学习·架构
薛定猫AI21 小时前
【深度解析】Claude Code Skills 工作流:用知识图谱、设计规范与 Agent 工具链提升 AI 编程效率
人工智能·知识图谱·设计规范
AI自动化工坊21 小时前
Cloudflare Project Think技术实践:零成本AI Agent部署架构深度解析
人工智能·架构·agent·cloudflare
IT_陈寒1 天前
JavaScript里这个隐式类型转换的坑,我终于爬出来了
前端·人工智能·后端
星幻元宇VR1 天前
VR航空航天科普设备助力航天知识普及
人工智能·科技·学习·安全·vr·虚拟现实
Agent产品评测局1 天前
制造业生产调度自动化落地,完整步骤与避坑指南:2026企业级智能体选型与实战全景
运维·人工智能·ai·chatgpt·自动化
Black蜡笔小新1 天前
企业级私有化AI模型训练工作站DLTM一体化AI模型训练工作站重构企业AI自主可控新模式
机器学习·ai大模型
志栋智能1 天前
超自动化巡检:让合规与审计变得轻松简单
运维·网络·人工智能·自动化