【论文阅读】CVPR 2023 色彩后门:色彩空间中的鲁棒中毒攻击

文章目录

一.论文信息
二.论文内容

一.论文信息

论文题目： Color Backdoor: A Robust Poisoning Attack in Color Space（色彩后门:色彩空间中的鲁棒中毒攻击）

论文来源： 2023-CVPR

论文团队： 电子科技大学 & 南洋理工大学

二.论文内容

1.摘要

针对神经网络的后门攻击已经被深入研究，攻击者破坏了受害者模型的完整性，导致它对包含特定触发器的推理样本做出错误的预测。为了使触发器更加难以察觉，人们提出了各种隐蔽的后门攻击，一些作品采用不可察觉的扰动作为后门触发器，限制了被触发图像和干净图像的像素差异。有些作品使用特殊的图像样式(如反射，Instagram滤镜)作为后门触发器。然而，这些攻击牺牲了鲁棒性，并且可以很容易地被基于预处理的常见防御所击败。

本文提出了一种同时具有鲁棒性和隐身性的彩色后门攻击方法。我们攻击的关键观点是对所有像素应用统一的色彩空间位移作为触发器。该全局特征对图像变换操作具有鲁棒性，并且触发的样本保持自然外观。为了找到最优触发器，我们首先通过PSNR、SSIM和LPIPS指标定义自然度限制。然后利用粒子群优化算法(PSO)寻找在满足约束条件的情况下具有较高的攻击有效性和鲁棒性的最优触发器。大量的实验证明了粒子群算法的优越性和彩色后门对不同主流后门防御的鲁棒性。

2.引言

神经网络在越来越多的领域得到了应用，包括图像分类[10]、语音识别[16]和自然语言处理[1]。然而，最近的研究表明，神经网络容易受到后门攻击[9,14]。攻击者可以通过毒害训练数据集将后门嵌入到受害者模型中。因此，后门受害者模型将在干净样本上正常运行，但在包含特定触发器的样本上表现错误。这种威胁会给现实世界中的许多关键应用带来严重的破坏，如人脸认证[36]、恶意软件检测[30]、语音识别[39]、自动驾驶[13]等。

研究人员通过提出各种复杂的攻击技术来推进后门研究。从两个方面改进了这些攻击。(1)隐匿性。受感染模型中的后门可以绕过现有的检测方法。此外，触发器的设计看起来很自然，可以逃避人类的检查。(2)鲁棒性。后门和触发器应该是强大的，不能轻易被防御者移除。具有这些特性的后门攻击将非常难以缓解。

然而，我们观察到追求视觉隐身会牺牲攻击的鲁棒性。具体来说，有两种隐蔽的后门攻击策略。第一种是不可见触发器，它限制了干净图像和触发图像之间的像素距离[2,17,46]。一些攻击在像素之外进一步加强潜在表示的一致性，以实现特征空间的隐蔽性[5,27,44]。第二种策略是自然触发，使用特殊的图像样式(如反射[22]、Instagram滤镜[21]、天气条件[3])来激活后门。触发后的图像不需要保持与干净图像的相似性，只要人眼看起来自然即可。不幸的是，这些微妙的后门触发器很容易被常见的图像变换操作失效，并且相应的后门攻击容易受到一些基于预处理的防御，例如DeepSweep[25]，图像压缩[37]，ShrinkPad19。此外，一些方法[3,5,27,44]要求对手对受害者的训练过程有完全的控制，这不能应用于数据中毒威胁模型。

为了克服这些限制，我们提出了彩色后门，这是一种新的基于中毒的后门攻击，可以同时表现出隐身性和鲁棒性。我们的颜色后门的灵感来自于人类认知系统[12]的形状偏差属性(即，人类更喜欢根据物体的形状而不是颜色对其进行分类)。它对所有像素采用统一的色彩空间移位作为后门触发器。如图1所示，被触发的图像在语义上以一种非常自然的方式表示与原始图像相同的对象，并且可以逃避防御者的检查。我们还使用局部可解释模型不可知论解释(Local Interpretable Model-Agnostic Explanations (LIME))[28]来解释我们攻击的有效性。如图2所示，LIME可视化了对后门模型的预测做出贡献的区域，当测试样本被清理时，模型关注对象本身，当测试样本被触发时，模型关注整个图像。这是因为该模型可以学习图像的结构信息(即特定的色彩空间位移)，并利用该特征识别后门样本。

然而，为颜色后门找到一个合适的触发器(颜色空间偏移)是非常重要的:大的偏移会使被触发的样本不太真实(见图4)，而小的偏移会使模型难以学习该特征，从而导致低的有效性和鲁棒性。为了解决实际黑箱设置1下的这一问题，我们采用粒子群优化算法(Particle Swarm Optimization, PSO)[6]，一种有效的无梯度优化算法，系统地搜索最优触发器。具体来说，我们首先使用半训练模型(具有代理模型架构)的后门损失来有效地估计触发器的有效性。然后，我们通过三个流行的相似度指标，即PSNR[42]、SSIM[35]和LPIPS[42]来量化触发器的自然度，并在此基础上定义自然度限制。然后，在粒子群算法的搜索过程中加入自然度约束的惩罚函数，找到最优的触发点。最后，在使用有毒数据集进行训练时，将颜色后门嵌入到受害者模型中。

寻找一个合适的色彩空间偏移触发器是非常重要的（如果偏移过大，显得不真实；如果偏移过小，模型无法学习该特征），因此：

1：使用粒子群算法（PSO）系统的搜索最优触发器；

2：使用PSNR、SSIM、LPIPS量化触发器的自然度，使触发器更自然（可以换成similarity）

我们进行了大量的实验来证明粒子群优化算法优于其他优化算法。我们显示，与现有的攻击相比，我们的彩色后门对最先进的基于预处理的防御更具弹性。此外，它还可以绕过Neural purge[34]、Fine-Pruning[20]、STRIP[8]、Grad-Cam[29]、Spectral Signature[31]等主流防御手段。