【论文阅读】distilling cognitive backdoor patterns within an image

本文是输入级别的后门检测

认知蒸馏(Cognitive Distillation, CD)用于提取和检测图像中的后门模式。

其核心思想是从输入图像中提取出对模型预测起决定性作用的"最小本质"。CD通过优化输入掩码,从输入图像中提取出一个小的模式,该模式能够导致模型输出相同的结果(例如,特征、logits或概率)。提取出的模式有助于理解模型在干净图像与后门图像上的认知机制,因此被称为认知模式(Cognitive Pattern, CP)。

通过CD和提取出的CPs,我们发现了一个有趣的现象:尽管不同攻击使用的触发器模式形式和大小各异,但后门样本的CPs却异常且可疑地小。这表明后门模式与后门标签之间的关联远比自然关联简单。因此,我们可以利用学习到的掩码来检测并从受污染的训练数据集中移除后门样本。

在本文中,我们提出了一种输入信息解耦方法,称为认知蒸馏(Cognitive Distillation, CD),用于提取输入图像中决定模型输出(例如特征、logits和概率)的最小模式。这一想法受到输入图像中既有有用特征也有无用特征这一事实的启发(Ilyas et al., 2019)。直观上,如果通过某种优化过程移除无用特征,有用的特征将被揭示出来,从而有助于理解原始输入的隐藏识别机制。CD通过优化输入掩码来移除输入中的冗余信息,同时确保模型仍然产生相同的输出。提取出的模式被称为认知模式(Cognitive Pattern, CP),直观上,它包含了模型预测所需的最小充足信息。

通过CD,我们发现了一个有趣的现象: 尽管大多数攻击使用的触发器模式覆盖整个图像,但后门样本的CPs异常且可疑地小。这表明后门模式与后门标签之间的关联远比自然关联简单。 因此,小的触发器模式可能足以进行有效的后门攻击。这一现有后门攻击的共同特征促使我们利用学习到的掩码来检测后门样本。此外,提取出的CPs和学习到的掩码可视化了不同攻击如何转移后门模型的注意力。

CD是自监督的

认知蒸馏


如图 1a 的第一列所示,后门模型上干净图像的掩码和 CP 较大且与主要对象语义相关。显然,模型似乎在利用图像中的真实内容进行预测。对于使用小补丁或分散像素作为触发模式的 3 种攻击(BadNets、Trojan 和 Dynamic),后门图像的 CP 揭示了它们的触发模式,掩码则突出了触发的关键部分。

其他 8 种攻击均采用全图像大小的触发模式,但它们的 CP 都异常小(在幅度上)、稀疏(分散的像素)且语义上无意义(偏离主要对象)。这表明模型确实在使用后门特征来预测类别标签。有趣的是,结果显示即使触发模式覆盖整个图像,推理过程中也仅涉及触发模式的一小部分。模型似乎不仅忽略了真实内容,还忽略了触发模式的大部分。我们推测这是因为后门相关性本质上比自然相关性更简单,因此模型不需要记住整个触发模式来学习后门相关性。相反,它倾向于从触发模式中找到最简单的线索来完成后门任务。这些简单的相关性在推理时绕过了对真实内容的感知,只要触发模式出现即可。

简化触发模式的攻击成功率(ASR)与原始触发模式的比较如图 1b 所示。显然,每个触发模式都可以被简化而不会(显著)降低 ASR。有趣的是,简化触发模式甚至略微提高了 FC、SIG 和 WaNet 攻击的 ASR。

总结来说,上述发现揭示了后门攻击的一个共同特征:无论触发模式如何,后门相关性都比自然相关性简单得多。因此,可以利用我们的 CD 蒸馏出的掩码大小来检测后门样本。

方法

t为 通过掩码大小来判断是否存在后门的 阈值

阈值确定:

证明提出的方法 对不同后门攻击 检测 的可行性

相关推荐
gyx_这个杀手不太冷静8 小时前
大人工智能时代下前端界面全新开发模式的思考(一)
前端·人工智能·ai编程
Sim14808 小时前
GPT-5倒计时:多模态AI助手大战一触即发,谁将主导下一代操作系统?
人工智能·gpt·microsoft
zhanghongbin018 小时前
AI Observability Agent:大模型时代的监控利器
网络·人工智能
财经资讯数据_灵砚智能9 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月11日
大数据·人工智能·python·信息可视化·自然语言处理·ai编程
聊点儿技术9 小时前
IPv6来了,IP精准定位服务还能“准”吗?
大数据·网络·人工智能·ip·ipv4·ipv6·ip精准定位
zandy10119 小时前
打破API瓶颈!衡石HENGSHI CLI:专为AI Agent打造,重构BI自动化底层逻辑
人工智能·重构·自动化
eastyuxiao9 小时前
在飞书群中实现“机器人@机器人”
人工智能
这张生成的图像能检测吗9 小时前
(论文速读)GCGNet:具有外生变量的时间序列预测的图一致生成网络
人工智能·深度学习·图神经网络·时序模型
xiangzhihong89 小时前
Skill学习指南
人工智能
星光技术人9 小时前
怎么理解任务接口不是文本
人工智能·深度学习·计算机视觉·语言模型·自动驾驶