https://github.com/Unispac/Circumventing-Backdoor-Defenses
摘要和介绍
在各种后门毒化攻击中,来自目标类别的毒化样本和干净样本通常在潜在空间中形成两个分离的簇。
这种潜在的分离性非常普遍,甚至在防御研究中成为了一种默认假设,我们称之为潜在分离性假设。基于这一假设设计的防御方法通过在潜在空间中进行聚类分析来识别毒化样本。具体来说,这些防御方法首先在污染数据集上训练一个基础分类器,并期望该基础模型能自然地学习到毒化样本和干净样本的可分离潜在表示。之后,它们会在基础模型的潜在空间上进行聚类分析。如果潜在分离性特征可靠地出现,这些防御方法就能够准确地识别出由毒化样本形成的异常簇,从而将这些样本从训练集中滤除。我们注意到,这类基于潜在分离的防御方法在后门防御领域尤其重要和成功。像Spectral Signature(Tran等,2018)和Activation Clustering(Chen等,2019)这样的提议已经成为不可或缺的基准,近年来,基于这一假设的最新方法,如SCAn(Tang等,2021)和SPECTRE(Hayase等,2021),甚至声称能在各种攻击中实现几乎完美的召回率,并且假阳性率极低。
鉴于潜在分离性在防御中的普遍性及其显著效果,一个自然的问题随之而来:潜在分离性对后门毒化攻击来说是否是不可避免的?
我们设计了适应性后门毒化攻击(无需控制模型的训练过程),通过这种攻击主动抑制潜在分离性,同时保持较高的攻击成功率(ASR)和极小的干净样本准确率下降。
我们适应性攻击设计的两个关键组件为:
(1)基于数据毒化的正则化。在向一组样本植入后门触发器后,我们不会将所有样本都错误地标记为目标类别,而是随机保留一部分样本(即正则化样本),并仍然正确标记为其实际语义类别。从直觉上讲,这些额外的正则化样本可以惩罚后门触发器与目标类别之间的关联。
(2)促进不对称性和多样性的触发器植入策略。我们通过不对称的触发器植入策略解决了正则化样本对后门关联的惩罚可能会显著降低攻击成功率(ASR)的问题。
![](https://i-blog.csdnimg.cn/direct/21fdbd3c5cc74d70a2a44afa62bec0bf.png)
如图2所示,我们在构建正则化样本和有效载荷样本时,使用了较弱的触发器,而标准触发器仅在测试时用于激活后门。这样,测试时带有标准触发器的后门样本具有比正则化样本(带弱触发器)更强的后门特征,因此,测试时的攻击能够很好地缓解正则化样本的反作用,并保持较高的攻击成功率。除了不对称性,我们的设计还鼓励触发器的多样性------不同的毒化样本可以使用来自不同触发器分区的不同部分触发器。从直觉上讲,这种多样性使得后门毒化样本在潜在表示空间中分布得更加分散,从而避免它们聚集成易于识别的簇。
相关工作
针对基于潜在分离的防御的适应性后门攻击
一类适应性后门攻击(Tan & Shokri, 2020;Xia等,2022;Doan等,2021;Ren等,2021;Cheng等,2021;Zhong等,2022)明确旨在减少毒化样本和干净样本之间的潜在分离。然而,这些攻击并不符合后门毒化攻击的范式------它们假设对整个训练过程有额外的控制 ,因此直接将潜在的不可分离性编码到被攻击模型的训练目标中。与之更相关的工作是Tang等(2021),他们指出其源特定的仅毒化攻击能够减少潜在分离性。然而,正如图1e所示,当基础模型与标准数据增强一起训练时,毒化样本和干净样本之间仍然存在明显的分离,实际上Tang等(2021)自己也表明,通过改进的潜在空间聚类分析,就足以完美分离这种攻击的毒化样本和干净样本。因此,目前仍不清楚仅毒化的后门攻击是否能够克服潜在分离性,从而绕过基于潜在分离的后门防御方法。本文填补了这一空白,设计了能够主动抑制潜在分离性的适应性后门毒化攻击(从而规避现有基于潜在分离的防御)。
方法
对于潜在分离现象,我们的设计受到了两个互补的启发性视角的启发。第一个视角将潜在分离归因于后门触发器在后门模型推理中的主导作用(Tran等,2018)。直观上,为了将一个(植入触发器的)后门毒化样本从其语义类推向目标类,后门模型倾向于在潜在表示空间中学习到一个过于强烈的信号,该信号可以压倒其他语义特征,从而做出决定。这种只出现在后门毒化样本中的强烈后门信号导致了潜在分离的出现。 第二个视角是,后门模型为毒化样本和干净样本学习不同的表示,仅仅因为它们倾向于为毒化样本学习一个单独的快捷规则 (Geirhos等,2020),这个规则完全基于触发器模式,而不使用任何语义特征。也就是说,后门学习通常独立于(或仅与)主任务所用的语义特征相关,因此适应毒化数据集的后门模型本质上学习了两个无关(或弱相关)的任务。从这个角度来看,后门模型并没有强烈的动机去为这两个异质任务的样本学习同质的潜在表示。
受到这些视角的启发,我们认为一个理想的适应性后门毒化攻击(能够减轻潜在分离)可能需要编码某种形式的正则化,以(1)惩罚后门模型学习到对后门触发器的异常强烈信号;(2)鼓励后门学习与主任务学习之间的关联。
![](https://i-blog.csdnimg.cn/direct/21fdbd3c5cc74d70a2a44afa62bec0bf.png)
我们在图2中展示了我们设计的概述。与典型的后门毒化攻击不同,在我们的框架中,我们并非将所有植入触发器的样本都标记为目标类。如图所示,在将后门触发器植入一组样本(从所有类别中采样)后,我们将其随机分成两组。对于一组样本,我们仍然将它们标记为目标类(我们称这组为有效载荷样本),以建立触发器模式与目标标签之间的后门关联;而另一组(即正则化样本)则被正确地标记为其真实的语义类别(可能不同于目标类),以正则化后门关联。
此外,我们在触发器设计中引入了不对称性和多样性的思想------我们应用一组不同的弱化触发器来构建正则化样本和有效载荷样本进行数据毒化,而原始的标准触发器则在测试时用于激活后门。
正则化样本
我们注意到,正则化样本的引入很好地结合了提出的两种见解(方法开头的第一段)。首先,通过正则化样本,后门模型不再能够学习到一个对后门触发器过于强烈的信号,这样的信号会独裁性地决定目标类,否则它就无法拟合正确标记为其他类别的正则化样本。 这也解释了正则化样本命名的原因------直观地说,它们作为正则化项,有助于惩罚学习到的潜在表示中的后门信号。其次,模型也无法通过简单的快捷规则拟合所有植入触发器的样本。相反,现在它必须拟合一个更复杂的边界,该边界应该决定何时将植入触发器的输入分类为目标类,何时将其分类为真实的语义标签,而这个边界是随机生成的。 为了成功拟合这个边界,模型必须依赖于触发器模式和与触发器共存的语义特征的伪影,因此,后门样本的学习潜在表示应当是触发器模式和语义特征的平衡融合。
不对称触发器
引入不对称触发器对于我们的攻击仍能保持较高的攻击成功率(ASR)至关重要。正如我们容易注意到的那样,由于正则化样本会惩罚后门关联,其副作用可能是攻击成功率(ASR)的下降。为了缓解这个问题,我们的设计中,数据毒化时使用弱化的触发器,而测试时只使用(更强的)原始标准触发器。直觉是:在测试时,后门样本(带有标准触发器)包含比正则化样本(带有弱化触发器)更强的后门特征。这使得测试时的后门样本具有足够的"力量"来抵消正则化样本的对抗作用,从而仍能实现较高的攻击成功率。我们注意到,不对称触发器的想法最早可以追溯到Chen等人(2017),但其背景不同。为了避免人工检查毒化数据集,Chen等(2017)建议使用视觉上不太明显的弱化触发器进行数据毒化,并指出如果在测试时使用原始标准触发器,仍然可以保持较高的攻击成功率。在我们的背景下,我们主要使用弱化触发器来减轻正则化样本带来的负面影响。
触发器多样性
我们还强调,触发器多样化在我们设计中也有助于缓解潜在分离。直观上,由于不同的毒化样本可能被植入不同的触发器,这些毒化样本可能在潜在表示空间中更加分散。因此,我们期望这种更为多样化的分散可以防止这些毒化样本聚集成一个容易识别的簇。
实例化方法
我们在图2中展示的框架是通用的,可以与现有技术创造性地结合,从而实例化出强大的自适应攻击。根据这一框架,我们通过直接调整常用的图像融合和补丁基毒化策略,实例化了两种具体攻击,分别是自适应融合攻击(Adaptive-Blend)和自适应补丁攻击(Adaptive-Patch)。
![](https://i-blog.csdnimg.cn/direct/7d5880453ec8428c9d06bb60ce414054.png)
![](https://i-blog.csdnimg.cn/direct/b2be8b939bee4c3a809b918c2d63d551.png)
只看了核心方法部分,其他部分没怎么看 (只看了1/3左右) 消融实验什么的。空了看下后面的