【论文阅读】CVPR 2023 色彩后门:色彩空间中的鲁棒中毒攻击

文章目录

一.论文信息

论文题目: Color Backdoor: A Robust Poisoning Attack in Color Space(色彩后门:色彩空间中的鲁棒中毒攻击)

论文来源: 2023-CVPR

论文团队: 电子科技大学 & 南洋理工大学

二.论文内容

1.摘要

针对神经网络的后门攻击已经被深入研究,攻击者破坏了受害者模型的完整性,导致它对包含特定触发器的推理样本做出错误的预测。为了使触发器更加难以察觉,人们提出了各种隐蔽的后门攻击,一些作品采用不可察觉的扰动作为后门触发器,限制了被触发图像和干净图像的像素差异。有些作品使用特殊的图像样式(如反射,Instagram滤镜)作为后门触发器。然而,这些攻击牺牲了鲁棒性,并且可以很容易地被基于预处理的常见防御所击败。

本文提出了一种同时具有鲁棒性和隐身性的彩色后门攻击方法。 我们攻击的关键观点是对 所有像素 应用统一的 色彩空间位移 作为触发器。该全局特征对图像变换操作具有鲁棒性,并且触发的样本保持自然外观。为了找到最优触发器,我们首先通过PSNR、SSIM和LPIPS指标定义自然度限制。然后利用粒子群优化算法(PSO)寻找在满足约束条件的情况下具有较高的攻击有效性和鲁棒性的最优触发器。大量的实验证明了粒子群算法的优越性和彩色后门对不同主流后门防御的鲁棒性。

2.引言

神经网络在越来越多的领域得到了应用,包括图像分类[10]、语音识别[16]和自然语言处理[1]。然而,最近的研究表明,神经网络容易受到后门攻击[9,14]。攻击者可以通过毒害训练数据集将后门嵌入到受害者模型中。因此,后门受害者模型将在干净样本上正常运行,但在包含特定触发器的样本上表现错误。这种威胁会给现实世界中的许多关键应用带来严重的破坏,如人脸认证[36]、恶意软件检测[30]、语音识别[39]、自动驾驶[13]等。

研究人员通过提出各种复杂的攻击技术来推进后门研究。从两个方面改进了这些攻击。(1)隐匿性。受感染模型中的后门可以绕过现有的检测方法。此外,触发器的设计看起来很自然,可以逃避人类的检查。(2)鲁棒性。后门和触发器应该是强大的,不能轻易被防御者移除。具有这些特性的后门攻击将非常难以缓解。

然而,我们观察到追求视觉隐身会牺牲攻击的鲁棒性。具体来说,有两种隐蔽的后门攻击策略。第一种是不可见触发器,它限制了干净图像和触发图像之间的像素距离[2,17,46]。一些攻击在像素之外进一步加强潜在表示的一致性,以实现特征空间的隐蔽性[5,27,44]。第二种策略是自然触发,使用特殊的图像样式(如反射[22]、Instagram滤镜[21]、天气条件[3])来激活后门。触发后的图像不需要保持与干净图像的相似性,只要人眼看起来自然即可。不幸的是,这些微妙的后门触发器很容易被常见的图像变换操作失效,并且相应的后门攻击容易受到一些基于预处理的防御,例如DeepSweep[25],图像压缩[37],ShrinkPad19。此外,一些方法[3,5,27,44]要求对手对受害者的训练过程有完全的控制,这不能应用于数据中毒威胁模型。

为了克服这些限制,我们提出了彩色后门,这是一种新的基于中毒的后门攻击,可以同时表现出隐身性和鲁棒性。我们的颜色后门的灵感来自于人类认知系统[12]的形状偏差属性(即,人类更喜欢根据物体的形状而不是颜色对其进行分类)。它对所有像素采用统一的色彩空间移位作为后门触发器。如图1所示,被触发的图像在语义上以一种非常自然的方式表示与原始图像相同的对象,并且可以逃避防御者的检查。我们还使用局部可解释模型不可知论解释(Local Interpretable Model-Agnostic Explanations (LIME))[28]来解释我们攻击的有效性。如图2所示,LIME可视化了对后门模型的预测做出贡献的区域,当测试样本被清理时,模型关注对象本身,当测试样本被触发时,模型关注整个图像。这是因为该模型可以学习图像的结构信息(即特定的色彩空间位移),并利用该特征识别后门样本。

然而,为颜色后门找到一个合适的触发器(颜色空间偏移)是非常重要的:大的偏移会使被触发的样本不太真实(见图4),而小的偏移会使模型难以学习该特征,从而导致低的有效性和鲁棒性。为了解决实际黑箱设置1下的这一问题,我们采用粒子群优化算法(Particle Swarm Optimization, PSO)[6],一种有效的无梯度优化算法,系统地搜索最优触发器。具体来说,我们首先使用半训练模型(具有代理模型架构)的后门损失来有效地估计触发器的有效性。然后,我们通过三个流行的相似度指标,即PSNR[42]、SSIM[35]和LPIPS[42]来量化触发器的自然度,并在此基础上定义自然度限制。然后,在粒子群算法的搜索过程中加入自然度约束的惩罚函数,找到最优的触发点。最后,在使用有毒数据集进行训练时,将颜色后门嵌入到受害者模型中。

寻找一个合适的色彩空间偏移触发器是非常重要的(如果偏移过大,显得不真实;如果偏移过小,模型无法学习该特征),因此:

1:使用粒子群算法(PSO)系统的搜索最优触发器;

2:使用PSNR、SSIM、LPIPS量化触发器的自然度,使触发器更自然(可以换成similarity)

我们进行了大量的实验来证明粒子群优化算法优于其他优化算法。我们显示,与现有的攻击相比,我们的彩色后门对最先进的基于预处理的防御更具弹性。此外,它还可以绕过Neural purge[34]、Fine-Pruning[20]、STRIP[8]、Grad-Cam[29]、Spectral Signature[31]等主流防御手段。

4.主要图表

图1. 原始图像和带有触发器的图像的视觉比较(数据来源于ImageNet)。

图2. LIME的解释。左图是干净图像,右图是植入后门的图像。

图3. 色彩后门的工作流程。

表1. 采用不同的触发搜索优化算法的彩色后门攻击的攻击成功率(ASR)。

表2. 不同搜索算法的触发器搜索小时数。

图4. 色彩后门攻击的触发图像(在自然性限制之内或之外的对比)。

图5。不同列表示不同的不可见后门方法:(i) Refool [22], (ii) WaNet [24], (iii) Blend [2], (iv) Filter [21], (v) L2-norm [17], (vi) 色彩后门。

表3. 不同中毒率的彩色后门攻击的ACC(图像分类识别率)和ASR(攻击成功率)

表4. 对基于预处理的防御方法的的鲁棒性(在CIFAR-10数据集上的测试)。

图6. Neural Cleanse和Grad-Cam方法。

图7. 模型剪枝。

图8. STRIP方法在CIFAR-10和CIFAR-100上的表现。

图9. Spectral Signature方法在CIFAR-10和CIFAR-100上的表现。

图10. 随机色彩空间偏移的防御效果。

表5. 我们提出的色彩厚么攻击的性能表现(使用了色彩空间加强)

5.结论

在这项工作中,我们提出了一种鲁棒后门,它采用所有像素的均匀颜色空间位移作为触发器。触发的图像保持自然的外观,可以绕过防守者的检查。采用粒子群算法对触发器进行优化,实现了稳健的后门攻击。大量的实验证明了PSO的优越性,以及我们的彩色后门攻击对基于预处理的防御以及其他主流后门防御的鲁棒性。

相关推荐
张人玉10 分钟前
人工智能——猴子摘香蕉问题
人工智能
草莓屁屁我不吃14 分钟前
Siri因ChatGPT-4o升级:我们的个人信息还安全吗?
人工智能·安全·chatgpt·chatgpt-4o
小言从不摸鱼17 分钟前
【AI大模型】ChatGPT模型原理介绍(下)
人工智能·python·深度学习·机器学习·自然语言处理·chatgpt
AI科研视界39 分钟前
ChatGPT+2:修订初始AI安全性和超级智能假设
人工智能·chatgpt
霍格沃兹测试开发学社测试人社区42 分钟前
人工智能 | 基于ChatGPT开发人工智能服务平台
软件测试·人工智能·测试开发·chatgpt
小R资源1 小时前
3款免费的GPT类工具
人工智能·gpt·chatgpt·ai作画·ai模型·国内免费
衍生星球4 小时前
【网络安全】对称密码体制
网络·安全·网络安全·密码学·对称密码
artificiali4 小时前
Anaconda配置pytorch的基本操作
人工智能·pytorch·python
掘根4 小时前
【网络】高级IO——poll版本TCP服务器
网络·数据库·sql·网络协议·tcp/ip·mysql·网络安全
酱香编程,风雨兼程4 小时前
深度学习——基础知识
人工智能·深度学习