【论文阅读】distilling cognitive backdoor patterns within an image

本文是输入级别的后门检测

认知蒸馏(Cognitive Distillation, CD)用于提取和检测图像中的后门模式。

其核心思想是从输入图像中提取出对模型预测起决定性作用的"最小本质"。CD通过优化输入掩码,从输入图像中提取出一个小的模式,该模式能够导致模型输出相同的结果(例如,特征、logits或概率)。提取出的模式有助于理解模型在干净图像与后门图像上的认知机制,因此被称为认知模式(Cognitive Pattern, CP)。

通过CD和提取出的CPs,我们发现了一个有趣的现象:尽管不同攻击使用的触发器模式形式和大小各异,但后门样本的CPs却异常且可疑地小。这表明后门模式与后门标签之间的关联远比自然关联简单。因此,我们可以利用学习到的掩码来检测并从受污染的训练数据集中移除后门样本。

在本文中,我们提出了一种输入信息解耦方法,称为认知蒸馏(Cognitive Distillation, CD),用于提取输入图像中决定模型输出(例如特征、logits和概率)的最小模式。这一想法受到输入图像中既有有用特征也有无用特征这一事实的启发(Ilyas et al., 2019)。直观上,如果通过某种优化过程移除无用特征,有用的特征将被揭示出来,从而有助于理解原始输入的隐藏识别机制。CD通过优化输入掩码来移除输入中的冗余信息,同时确保模型仍然产生相同的输出。提取出的模式被称为认知模式(Cognitive Pattern, CP),直观上,它包含了模型预测所需的最小充足信息。

通过CD,我们发现了一个有趣的现象: 尽管大多数攻击使用的触发器模式覆盖整个图像,但后门样本的CPs异常且可疑地小。这表明后门模式与后门标签之间的关联远比自然关联简单。 因此,小的触发器模式可能足以进行有效的后门攻击。这一现有后门攻击的共同特征促使我们利用学习到的掩码来检测后门样本。此外,提取出的CPs和学习到的掩码可视化了不同攻击如何转移后门模型的注意力。

CD是自监督的

认知蒸馏


如图 1a 的第一列所示,后门模型上干净图像的掩码和 CP 较大且与主要对象语义相关。显然,模型似乎在利用图像中的真实内容进行预测。对于使用小补丁或分散像素作为触发模式的 3 种攻击(BadNets、Trojan 和 Dynamic),后门图像的 CP 揭示了它们的触发模式,掩码则突出了触发的关键部分。

其他 8 种攻击均采用全图像大小的触发模式,但它们的 CP 都异常小(在幅度上)、稀疏(分散的像素)且语义上无意义(偏离主要对象)。这表明模型确实在使用后门特征来预测类别标签。有趣的是,结果显示即使触发模式覆盖整个图像,推理过程中也仅涉及触发模式的一小部分。模型似乎不仅忽略了真实内容,还忽略了触发模式的大部分。我们推测这是因为后门相关性本质上比自然相关性更简单,因此模型不需要记住整个触发模式来学习后门相关性。相反,它倾向于从触发模式中找到最简单的线索来完成后门任务。这些简单的相关性在推理时绕过了对真实内容的感知,只要触发模式出现即可。

简化触发模式的攻击成功率(ASR)与原始触发模式的比较如图 1b 所示。显然,每个触发模式都可以被简化而不会(显著)降低 ASR。有趣的是,简化触发模式甚至略微提高了 FC、SIG 和 WaNet 攻击的 ASR。

总结来说,上述发现揭示了后门攻击的一个共同特征:无论触发模式如何,后门相关性都比自然相关性简单得多。因此,可以利用我们的 CD 蒸馏出的掩码大小来检测后门样本。

方法

t为 通过掩码大小来判断是否存在后门的 阈值

阈值确定:

证明提出的方法 对不同后门攻击 检测 的可行性

相关推荐
阿坡RPA11 小时前
手搓MCP客户端&服务端:从零到实战极速了解MCP是什么?
人工智能·aigc
用户277844910499312 小时前
借助DeepSeek智能生成测试用例:从提示词到Excel表格的全流程实践
人工智能·python
机器之心12 小时前
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
人工智能
算AI14 小时前
人工智能+牙科:临床应用中的几个问题
人工智能·算法
凯子坚持 c15 小时前
基于飞桨框架3.0本地DeepSeek-R1蒸馏版部署实战
人工智能·paddlepaddle
你觉得20515 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
8K超高清15 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
hyshhhh15 小时前
【算法岗面试题】深度学习中如何防止过拟合?
网络·人工智能·深度学习·神经网络·算法·计算机视觉
薛定谔的猫-菜鸟程序员16 小时前
零基础玩转深度神经网络大模型:从Hello World到AI炼金术-详解版(含:Conda 全面使用指南)
人工智能·神经网络·dnn
joseanne_josie16 小时前
读论文笔记-ALIGN:利用有噪声数据集扩大视觉和视觉-语言表示
论文阅读