FiLo++的框架图介绍

Normal Texts
- 功能：生成正常样本的文本描述。
- 输入：固定模板（如 A [domain] photo of [state][cls]）和可学习模板（如 [v1][v2]...[vm][state][cls]）。
- 输出：融合后的正常文本提示（例如 "A industrial photo of normal metal nut"）。
- 传递路径 ：输入到 CLIP Text Encoder，生成正常文本特征（(T_n)）。
Detailed Abnormal Texts
- 功能：生成细粒度异常描述，包含异常类型和位置信息。
- 输入：固定模板（如 A [domain] photo of [state][cls] with [anomaly cls] at [pos]）和可学习模板（如 [W1][W2]...[W4][state][cls]）。
- 输出：异常文本提示（例如 "A industrial photo of anomalous metal nut with crack at top-right"）。
- 传递路径 ：输入到 CLIP Text Encoder，生成异常文本特征（(T_a)）。

Query Image
- 功能：待检测的输入图像。
- 输入：原始图像数据。
- 输出：图像经过 CLIP Image Encoder 提取多阶段补丁特征（(P_1, P_2, P_3, P_4)）。
Normal Images (Few-shot Only)
- 功能：少样本场景下的正常参考图像。
- 输入：少量正常样本图像。
- 输出：通过 CLIP Image Encoder 提取补丁特征，存入 Memory Bank。

CLIP Text Encoder
- 功能：将文本提示编码为特征向量。
- 输入：正常和异常文本提示。
- 输出：文本特征 (T_n)（正常）和 (T_a)（异常）。
Run-time Prompt Filtering
- 功能：过滤语义重叠的文本特征，提升正常/异常特征区分度。
- 输入：原始文本特征 (T_n) 和 (T_a)。
- 输出：过滤后的高区分度特征 (T'_n) 和 (T'_a)。

Grounding DINO
- 功能：基于文本描述初步定位潜在异常区域。
- 输入：Query Image 和异常文本描述。
- 输出：异常区域边界框（Bounding Box），用于后续特征匹配范围约束。

Deformable Conv (MDCI)
- 功能：通过可变形卷积聚合多尺度图像特征，适应不同形状/大小的异常区域。
- 输入：多阶段补丁特征 (P_1-P_4)。
- 输出：跨模态对齐后的异常热力图 (M^{vl})。
Stage1-Stage4
- 功能：分层提取图像补丁特征（不同层级的语义信息）。
- 输入：原始图像。
- 输出：各阶段的补丁特征 (P_1, P_2, P_3, P_4)（分辨率递减，语义增强）。

Adapter
- 功能：调整全局图像特征，增强与文本特征的相似度计算。
- 输入：CLIP Image Encoder 的全局特征 (G)。
- 输出：适配后的全局特征 (G')。
Memory Bank (Few-shot Only)
- 功能：存储少样本正常图像的补丁特征。
- 输入：正常参考图像的补丁特征。
- 输出：用于与查询图像的补丁特征进行匹配，生成少样本异常热力图 (M^{few})。

Matrix Multiplication
- 功能：计算图像特征与文本特征的相似度。
- 输入：适配后的全局特征 (G') 和过滤后的文本特征 (T'_n, T'_a)。
- 输出：全局异常分数 (S_{global})（图像级检测结果）。
Global Anomaly Score
- 功能：融合全局分数与局部热力图，生成最终异常分数。
- 输入：(S_{global}) 和 (M^{{vl})（跨模态热力图）、(M}{few})（少样本热力图）。
- 输出：图像级和像素级异常检测结果。

创新点：