【论文阅读】Reconstructive Neuron Pruning for Backdoor Defense

我们的主要贡献包括:

  • 我们引入了在相同样本集上进行神经元"遗忘"和"恢复"的新技术,并揭示了这种简单的基于重构的学习过程可以帮助暴露DNNs中的后门神经元。
  • 我们提出了一个新的防御方法------重构神经元剪枝(RNP),它通过在神经元级别进行"遗忘",然后在过滤器级别进行"恢复",利用少量干净样本检测和剪枝后门神经元。
  • 我们通过实验证明,RNP在对抗12种先进后门攻击方面显著优于现有的后门防御方法,并且"遗忘"模型可以用于触发器恢复、后门标签检测和后门样本检测。

我们提出了一种名为"重构神经元剪枝"(Reconstructive Neuron Pruning,RNP)的新方法,通过"遗忘"和"恢复"神经元的过程来暴露和剪枝后门神经元。具体而言,给定一个被后门攻击的模型,RNP首先通过梯度上升最大化模型在干净样本上的误差来"遗忘"模型,然后通过最小化模型在相同样本上的误差来"恢复"(重新学习)神经元。有趣的是,我们发现,如果"遗忘"在神经元级别进行,而"恢复"在过滤器级别进行,那么网络倾向于重新定位后门神经元,以补偿因"遗忘"而失去的干净特征造成的损失。这种不对称操作可以非常有效地仅使用少量干净样本(例如,对于CIFAR-10数据集的500张图像)来定位后门神经元。然后可以从网络中轻松剪枝这些后门神经元。

图1展示了我们提出的RNP防御方法。RNP的核心是一个重构学习过程,首先通过神经元遗忘(Neuron Unlearning,NU)在防御数据上遗忘神经元,然后通过滤波器恢复(Filter Recovering,FR)在相同数据上恢复神经元。由于防御数据是干净的,NU倾向于主要遗忘干净神经元,即与干净特征相关的神经元。与后门特征相关的后门神经元在遗忘后的模型中被大量保留。因此,遗忘后的模型可以用于改进其他分析,例如触发器恢复、后门标签检测和后门样本检测。

图1还展示了现有方法(Fine-pruning、NAD和ANP)的机制,以便进行比较。Fine-pruning是一种传统的剪枝方法,从被后门攻击的模型中剪枝那些小范数的神经元,而NAD(Li等人,2021c)采用微调后的模型作为教师来蒸馏被后门攻击模型的神经元。ANP(Wu & Wang,2021)利用对抗性扰动来寻找对对抗性扰动更敏感的神经元作为后门神经元。与ANP使用的对抗性扰动技术相比,我们的RNP通过不对称的遗忘和恢复过程,暴露更多与后门相关的神经元,并在剪枝步骤中实现更好的后门净化。



剪枝(Pruning):滤波器掩码mκ中的所有元素都初始化为1,并在恢复过程中被限制在[0, 1]范围内。恢复后,mκ中接近零的低值表明滤波器(及其相关神经元)主要包含被重用的神经元,这些神经元很可能是与后门相关的。因此,可以剪枝这些神经元以净化被后门攻击的模型。如图2所示,在恢复后的模型中,与触发器模式相关的激活显著减少(掩码值几乎降至零),而干净特征的激活显著增强(由于剪枝操作,掩码值保持接近1)。

相关推荐
朱剑君6 分钟前
第四天——贪心算法——种花
算法·贪心算法
TextIn智能文档云平台6 分钟前
PDF文档解析新突破:图表识别、公式还原、手写字体处理,让AI真正读懂复杂文档!
图像处理·人工智能·算法·自然语言处理·pdf·ocr
Panesle37 分钟前
HunyuanCustom:文生视频框架论文速读
人工智能·算法·音视频·文生视频
hie9889444 分钟前
matlab稳定求解高精度二维对流扩散方程
算法·机器学习·matlab
买了一束花1 小时前
MATLAB导出和导入Excel文件表格数据并处理
人工智能·算法·matlab
纪元A梦1 小时前
贪心算法应用:顶点覆盖问题详解
java·算法·贪心算法
爱补鱼的猫猫3 小时前
22、近端策略优化算法(PPO)论文笔记
论文阅读·算法
_Itachi__4 小时前
LeetCode 热题 100 543. 二叉树的直径
java·算法·leetcode
是代码侠呀4 小时前
飞蛾扑火算法matlab实现
开发语言·算法·matlab·github·github star·github 加星