一、研究背景与问题提出
在深度学习模型广泛应用的今天,对抗样本 (Adversarial Examples, AEs)因其对模型决策的潜在威胁而备受关注。其中,目标可迁移性 (targeted transferability)是指在替代模型上生成的对抗样本,能够误导未知受害模型输出一个特定目标类别的能力。
尽管现有的非目标攻击方法在跨模型迁移方面表现良好,但在目标攻击 中,迁移成功率依然较低。研究表明,这一问题的核心在于不同模型对同一类别的注意力区域存在显著差异。也就是说,代理模型可能聚焦于图像中的某个局部区域来识别目标类别,而受害模型却关注完全不同的位置,从而导致攻击失败。
图2展示了通过传统交叉熵(CE)攻击(第一行)和提出的CE+everywhere攻击方法(第二行)生成的对抗样本及其在不同模型上的注意力图。对于传统CE攻击,代理模型VGG16主要关注图像中特定区域(如花冠下部),但这种攻击未能成功欺骗其他模型,因为它们的关注区域不同(见图2b-2e)。相比之下,使用CE+everywhere攻击方法生成的对抗样本在代理模型上显示了多个焦点区域(图2g),并且这些区域中有至少一个与ResNet50(图2i)和DenseNet121(图2j)的关注区域相匹配,从而有效提升了对多种模型的攻击成功率,缓解了由于注意力不匹配导致的攻击失败问题。
二、现有方法的局限性
当前主流的方法大致分为两类,但都存在明显短板:
- 资源密集型方法(如TTP、C-GSP):这些方法通常需要为目标类别训练额外的分类器或生成器,计算开销大且扩展性差。
- 简单梯度驱动方法(如Logit、SH):虽然实现简单、效率高,但它们主要依赖提高目标类别的置信度,并未解决注意力区域错位的根本问题。
因此,如何在不增加计算负担的前提下,有效缓解模型间的注意力错位,成为提升目标攻击迁移性的关键挑战。
三、创新思路:Everywhere Attack
本文提出了一种全新的攻击策略------Everywhere Attack,其核心思想是:
在图像的多个局部区域中植入多个目标对象,而非仅追求单一区域的高置信度。

这种方法首次从"数量"角度出发,而非"质量",来增强对抗样本的目标迁移能力。通过覆盖尽可能多的潜在注意力区域,Everywhere Attack大幅提升了攻击在不同模型间的通用性。
主要优势:
- 方法无关性:适用于CE、Logit等多种基础攻击方法,无需额外训练。
- 高效实用:仅需在迭代攻击过程中加入简单的图像局部处理,即可显著提升迁移性能。
- 优于生成式方法:相比TTP、C-GSP等依赖训练生成器的复杂方案,Everywhere Attack在计算效率和效果上均占优。
四、方法详解
1. 攻击框架设计

图3提供了所提出的everywhere攻击方法的概览。该方法旨在通过在图像的多个区域合成目标对象来实现更有效的对抗样本生成。具体而言,首先将受害图像分割成M×M个不重叠的块,然后从中随机选取N个块。对于每个选中的块,剩余部分用数据集的平均值(归一化为零)填充,从而得到一个"局部"图像。接着,将这些"局部"图像与全局图像连接起来,形成N+1个用于攻击的图像。最后,对这N+1个图像同时进行针对相同目标(例如,"marmoset")的定向攻击。这样做的目的是期望最终获得的对抗样本中每一个块都独立具有攻击能力,而参数N可以用来平衡攻击强度和计算效率。当N=0时,该方法退化为基础攻击。
通过这种方式,everywhere攻击尝试覆盖尽可能多的不同受害模型的关注区域,以解决代理模型和受害模型之间的注意力不匹配问题。理论上,这意味着在图像中植入了多个目标对象(如多个"marmoset"),增加了至少一个目标位于受害模型关注区域内的可能性。因此,即使不同模型对同一类别的注意力区域有所不同,也能提高攻击的成功率。此外,算法1总结了将所提出的everywhere方案与CE攻击结合的过程,其中包含了传统增强转移性的方法如DI、TI和MI等步骤,进一步说明了如何在实践中实施这一策略。这种方法不仅提高了对抗样本的针对性转移性,还展示了其在多种迭代攻击方案中的通用性和灵活性。
简述Everywhere Attack的攻击流程如下:
- 将输入图像划分为 <math xmlns="http://www.w3.org/1998/Math/MathML"> M × M M \times M </math>M×M 个互不重叠的图像块(默认 <math xmlns="http://www.w3.org/1998/Math/MathML"> M = 4 M=4 </math>M=4);
- 随机选取其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> N N </math>N 个块(默认 <math xmlns="http://www.w3.org/1998/Math/MathML"> N = 9 N=9 </math>N=9),其余区域用数据集均值填充,生成"局部图像";
- 将全局图像与所有局部图像拼接为一组输入,统一针对相同目标类别进行攻击;
- 结合DI、TI、MI等已有增强策略,进一步提升迁移性。
该过程通过算法1实现,整个攻击过程只需在原有攻击基础上稍作调整,即可获得显著收益。
算法说明:
- 步骤1 :将受害图像分割为 (M \times M) 个非重叠块(默认 (M=4))。
- 步骤2:随机采样 (N) 个块(默认 (N=9)),对每个块: 用数据集均值填充其余区域,生成"局部图像"。
- 步骤3 :联合攻击 全局图像 + (N) 个局部图像,优化同一目标类别(算法1)。
- 步骤4:集成现有增强技术(如DI、TI、MI)进一步提升迁移性。
2. 理论支撑:覆盖率指标 <math xmlns="http://www.w3.org/1998/Math/MathML"> C C </math>C
为了量化代理模型与受害模型之间的注意力重叠程度,作者引入了新的评估指标:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> C = ∣ A t t v ∩ A t t s ∣ ∣ A t t v ∣ C = \frac{|Att_v \cap Att_s|}{|Att_v|} </math>C=∣Attv∣∣Attv∩Atts∣
其中:
- <math xmlns="http://www.w3.org/1998/Math/MathML"> A t t v Att_v </math>Attv 表示受害模型的关注区域;
- <math xmlns="http://www.w3.org/1998/Math/MathML"> A t t s Att_s </math>Atts 表示代理模型在生成对抗样本时的注意力区域;
- 交集大小表示两个模型共同关注的区域;
- 分母归一化后衡量覆盖率。
实验表明,在引入Everywhere Attack后,平均覆盖率从0.37提升至0.60,说明该方法有效缓解了注意力错位问题。

五、实验验证与结果分析
1. ImageNet基准测试
在ImageNet数据集上的测试显示,Everywhere Attack能显著提升多种基础攻击方法的目标迁移成功率:
- Logit攻击结合Everywhere后,迁移成功率提升幅度达 28.8%~300%;
- 基础攻击越弱(如CE攻击),提升越明显;
- 迁移难度越大(如Res50→Swin),增益越高。

2. 与生成式方法对比
与TTP和C-GSP等生成式方法相比,CFM+Everywhere在迁移成功率上达到 75.5%,远超TTP(59.8%)和C-GSP(47.3%),且无需训练任何额外网络,计算效率更高。

3. Data-free Targeted UAP

图4展示了使用Logit攻击和Logit结合Everywhere攻击方法生成的不同目标类别的无数据通用对抗扰动(Data-free UAP),包括"chickadee"、"wolf spider"、"peacock"、"macaw"和"toucan"。通过对比可以发现,相较于传统的Logit攻击(图4a-4e),Logit结合Everywhere攻击(图4f-4j)能够在UAP中植入更多、更小的目标对象,例如在针对"chickadee"的DTUAP中,传统方法仅能显示一个较大的鸟,而结合Everywhere攻击则能呈现至少四只雏鸟。这表明Everywhere攻击方案能够更有效地覆盖受害模型的注意力区域,从而显著提升对抗样本的迁移性和攻击成功率。
4. 实际应用验证
- 谷歌云视觉API:Logit+Everywhere成功率为11%,高于基线的6%;CFM+Everywhere更是达到了47%。
- DTUAP扰动生成:Evenwhere生成的扰动包含多个小尺寸目标对象,具有更强的泛化能力,在VGG16模型上成功率高达70%。

六、总结与展望
本文提出的Everywhere Attack方法,通过在图像中多个局部区域植入目标对象,有效解决了模型间注意力区域不一致的问题。其实现简单、计算高效,且可无缝集成到多种攻击框架中。
核心贡献包括:
- 提出一种新颖的攻击策略,通过"多点植入"提升目标迁移性;
- 首次从"数量"维度思考目标攻击,突破传统"提升置信度"的思维定式;
- 方法具备高度通用性,适用于CNN、Transformer等多种模型架构,以及普通模型、鲁棒模型及真实API等多样场景。