【论文阅读】distilling cognitive backdoor patterns within an image

本文是输入级别的后门检测

认知蒸馏(Cognitive Distillation, CD)用于提取和检测图像中的后门模式。

其核心思想是从输入图像中提取出对模型预测起决定性作用的"最小本质"。CD通过优化输入掩码,从输入图像中提取出一个小的模式,该模式能够导致模型输出相同的结果(例如,特征、logits或概率)。提取出的模式有助于理解模型在干净图像与后门图像上的认知机制,因此被称为认知模式(Cognitive Pattern, CP)。

通过CD和提取出的CPs,我们发现了一个有趣的现象:尽管不同攻击使用的触发器模式形式和大小各异,但后门样本的CPs却异常且可疑地小。这表明后门模式与后门标签之间的关联远比自然关联简单。因此,我们可以利用学习到的掩码来检测并从受污染的训练数据集中移除后门样本。

在本文中,我们提出了一种输入信息解耦方法,称为认知蒸馏(Cognitive Distillation, CD),用于提取输入图像中决定模型输出(例如特征、logits和概率)的最小模式。这一想法受到输入图像中既有有用特征也有无用特征这一事实的启发(Ilyas et al., 2019)。直观上,如果通过某种优化过程移除无用特征,有用的特征将被揭示出来,从而有助于理解原始输入的隐藏识别机制。CD通过优化输入掩码来移除输入中的冗余信息,同时确保模型仍然产生相同的输出。提取出的模式被称为认知模式(Cognitive Pattern, CP),直观上,它包含了模型预测所需的最小充足信息。

通过CD,我们发现了一个有趣的现象: 尽管大多数攻击使用的触发器模式覆盖整个图像,但后门样本的CPs异常且可疑地小。这表明后门模式与后门标签之间的关联远比自然关联简单。 因此,小的触发器模式可能足以进行有效的后门攻击。这一现有后门攻击的共同特征促使我们利用学习到的掩码来检测后门样本。此外,提取出的CPs和学习到的掩码可视化了不同攻击如何转移后门模型的注意力。

CD是自监督的

认知蒸馏


如图 1a 的第一列所示,后门模型上干净图像的掩码和 CP 较大且与主要对象语义相关。显然,模型似乎在利用图像中的真实内容进行预测。对于使用小补丁或分散像素作为触发模式的 3 种攻击(BadNets、Trojan 和 Dynamic),后门图像的 CP 揭示了它们的触发模式,掩码则突出了触发的关键部分。

其他 8 种攻击均采用全图像大小的触发模式,但它们的 CP 都异常小(在幅度上)、稀疏(分散的像素)且语义上无意义(偏离主要对象)。这表明模型确实在使用后门特征来预测类别标签。有趣的是,结果显示即使触发模式覆盖整个图像,推理过程中也仅涉及触发模式的一小部分。模型似乎不仅忽略了真实内容,还忽略了触发模式的大部分。我们推测这是因为后门相关性本质上比自然相关性更简单,因此模型不需要记住整个触发模式来学习后门相关性。相反,它倾向于从触发模式中找到最简单的线索来完成后门任务。这些简单的相关性在推理时绕过了对真实内容的感知,只要触发模式出现即可。

简化触发模式的攻击成功率(ASR)与原始触发模式的比较如图 1b 所示。显然,每个触发模式都可以被简化而不会(显著)降低 ASR。有趣的是,简化触发模式甚至略微提高了 FC、SIG 和 WaNet 攻击的 ASR。

总结来说,上述发现揭示了后门攻击的一个共同特征:无论触发模式如何,后门相关性都比自然相关性简单得多。因此,可以利用我们的 CD 蒸馏出的掩码大小来检测后门样本。

方法

t为 通过掩码大小来判断是否存在后门的 阈值

阈值确定:

证明提出的方法 对不同后门攻击 检测 的可行性

相关推荐
大霸王龙26 分钟前
不同Embedding模型与大语言模型(LLM)的交互主要通过语义向量传递实现
人工智能·python·深度学习·机器学习·语言模型·embedding
wlsjdszls1 小时前
ChatGPT免费背后的技术暗战 国产数字孪生如何打造“虚实共生”新生态?
人工智能·信息可视化·chatgpt
知来者逆1 小时前
YOLOv12 ——基于卷积神经网络的快速推理速度与注意力机制带来的增强性能结合
深度学习·yolo·目标检测·计算机视觉·视觉检测·yolov12
徐行tag1 小时前
PnP——根据3D与2d图片估计相机运动
人工智能·数码相机·3d·视觉slam
阿丢丢2 小时前
如何在Mac上通过LMX训练自己的模型
人工智能
春末的南方城市2 小时前
谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用。
人工智能·语言模型·自然语言处理
code_talking2 小时前
Python学习第十七天之PyTorch保姆级安装
人工智能·pytorch·python·conda
微刻时光2 小时前
影刀RPA + AI大语言模型:打造智能自动化流程的超级引擎
人工智能·python·语言模型·rpa·影刀rpa·影刀证书·影刀实战
光锥智能2 小时前
荣耀AI PC 2.0战略发布,推出新品笔电荣耀MagicBook Pro 14
人工智能
大力财经2 小时前
DeepSeek为云厂商带来新机遇,东吴证券看好AI带动百度智能云增长
人工智能·百度