ECCV2020 | YAILA | 又一种中间层攻击方法

Yet Another Intermediate-Level Attack

摘要-Abstract
引言-Introduction
[相关工作-Related Work](#相关工作-Related Work)
[我们的方法-Our Method](#我们的方法-Our Method)
实验-Experiments
结论-Conclusion

本文 "Yet Another Intermediate-Level Attack" 提出了一种增强对抗样本黑盒迁移性的新方法，通过建立中间层差异的线性映射预测对抗损失，利用多步基线攻击的优化过程提升迁移性，在 CIFAR-100 和 ImageNet 上的实验证明了其有效性优于现有方法。

摘要-Abstract

The transferability of adversarial examples across deep neural network (DNN) models is the crux of a spectrum of black-box attacks. In this paper, we propose a novel method to enhance the black-box transferability of baseline adversarial examples. By establishing a linear mapping of the intermediate-level discrepancies (between a set of adversarial inputs and their benign counterparts) for predicting the evoked adversarial loss, we aim to take full advantage of the optimization procedure of multi-step baseline attacks. We conducted extensive experiments to verify the effectiveness of our method on CIFAR-100 and ImageNet. Experimental results demonstrate that it outperforms previous state-of-the-arts considerably.

对抗样本在深度神经网络（DNN）模型间的迁移性是一系列黑盒攻击的关键所在。在本文中，我们提出了一种新颖的方法来增强基线对抗样本的黑盒迁移性。通过建立中间层差异（一组对抗性输入与其良性对应物之间的）的线性映射以预测引发的对抗损失，我们旨在充分利用多步基线攻击的优化过程。 我们在 CIFAR - 100 和 ImageNet 上进行了大量实验以验证我们方法的有效性。实验结果表明，它显著优于先前的最先进技术。

引言-Introduction

该部分主要阐述了深度神经网络（DNNs）对抗样本的可迁移性研究背景及本文的研究重点，具体内容如下：

研究背景：多年来，DNNs的对抗脆弱性受到广泛研究，微小的、人眼难以察觉的扰动可使先进的DNNs做出错误预测，且在一个DNN模型上生成的对抗样本能以一定成功率欺骗其他模型，这种可迁移性在黑盒攻击场景中至关重要，因为攻击者通常难以获取受害模型的架构和参数。
研究重点：以往研究致力于提升对抗样本的可迁移性，近期的中间层攻击方法在一定程度上提高了可迁移性。本文提出一种新方法，旨在改进任何基线攻击生成的对抗样本的可迁移性，通过利用基线攻击每一步收集的方向指导，最大化中间层差异的标量投影，且该方法在CIFAR - 100和ImageNet的多种图像分类模型上进行了有效性验证，结果优于现有方法。

该部分主要介绍了对抗攻击的分类、现有提升对抗样本可迁移性的方法以及本文的问题设定，具体内容如下：

对抗攻击分类：根据受害模型信息泄露程度，对抗攻击分为白盒攻击和黑盒攻击。早期黑盒攻击依赖对抗样本可迁移性，但成功率低，因此出现了通过查询估计梯度的方法，但在某些应用中查询困难且成本高，且存在被检测的风险。
提升可迁移性的方法 ：近期一些方法通过最大化中间层特征图扰动而非最终交叉熵损失来提升对抗样本可迁移性。如Zhou等人提出最大化对抗样本与原始样本在中间层的差异并减少空间变化；Inkawhich等人在中间层进行攻击且需要目标样本；Huang等人的方法是最大化对抗样本在特定中间层到引导方向的标量投影。本文方法受Huang等人启发，但以基线攻击的整个优化过程而非最终结果为指导，认为临时结果能提供更有价值和可迁移的指导。
问题设定：本文聚焦于提升现成攻击（如Huang等人的中间层攻击ILA）的可迁移性，主要考虑多步攻击，以I - FGSM为基线攻击，旨在提高生成的对抗样本在未知架构和参数的受害模型上的成功率，攻击过程包括基线攻击和增强阶段两个阶段。

图 1. 我们用于增强对抗样本黑盒迁移性的方法流程，它由两个连续阶段组成，一个阶段是执行基线攻击（例如，I-FGSM [21]、PGD [24]、MI-FGSM [7] 等），另一个阶段是增强基线结果 x p a d v x_{p}^{adv} xpadv 。特别地，左侧热图中 h p a d v − h 0 a d v h^{adv}{p}-h^{adv}{0} hpadv−h0adv 的黄绿色背景表明其扰动比右侧 h a d v − h 0 a d v h^{adv}-h_{0}^{adv} hadv−h0adv 的扰动低得多。特征图的差异以 14×14 的空间尺寸展示。

我们的方法-Our Method

该部分提出了一种新的目标函数来提升对抗样本的迁移性，主要内容如下：

目标函数构建 ：对抗攻击通常通过最大化预测损失（如交叉熵损失等）来实现，本文利用多步攻击（如 I - FGSM）的临时结果和最终结果，提出新的目标函数。在源模型的中间层，对于输入 x t a d v x_{t}^{adv} xtadv 可得到中间层输出 h t a d v h_{t}^{adv} htadv 和对抗损失 l t l_{t} lt ，通过收集一组中间层差异和对抗损失值，建立从中间层差异到预测对抗损失的直接映射，如通过求解正则化问题得到线性回归模型的参数 w ∗ w^{*} w∗ 。然后优化目标为 m a x Δ x ( g ( x + Δ x ) − h 0 a d v ) T w ∗ max {\Delta{x}}\left(g\left(x+\Delta_{x}\right)-h_{0}^{adv}\right)^{T} w^{*} maxΔx(g(x+Δx)−h0adv)Tw∗ ，以生成具有最大预期对抗损失的像素级扰动，可使用一步或多步算法求解，利用 Woodbury 恒等式提高计算效率。当正则化参数 λ \lambda λ 极大时，该优化问题近似于 Huang 等人 ILA 方法的优化问题，本文方法可视为 ILA 的推广，因其利用了多步基线攻击的临时结果，可能更有效。
中间层归一化 ：在多步攻击中，不同时刻的中间层差异幅度差异很大（如 CIFAR - 100 中从约 0 到≥100）。为充分利用中间层差异，建议在求解线性回归问题前进行数据归一化，将矩阵 H ‾ \overline{H} H 的第 t 行设为归一化后的中间层差异，优化类似问题，期望同时最大化 ( g ( x + Δ x ) − h 0 a d v ) T w ~ ∗ ∥ g ( x + Δ x ) − h 0 a d v ∥ \frac{(g(x+\Delta_{x})-h_{0}^{adv})^{T} \tilde{w}^{*}}{\left\|g(x+\Delta_{x})-h_{0}^{adv}\right\|} ∥g(x+Δx)−h0adv∥(g(x+Δx)−h0adv)Tw~∗ 和 ∥ g ( x + Δ x ) − h 0 a d v ∥ \left\|g(x+\Delta_{x})-h_{0}^{adv}\right\| g(x+Δx)−h0adv 。

实验-Experiments

该部分主要围绕验证所提方法的有效性展开，具体内容如下：

多步基线攻击探究 ：在 CIFAR - 100 数据集上，以 VGG19 和 WRN 为模型，I - FGSM 为基线攻击进行实验。研究发现 ILA 与 I - FGSM 较早结果结合效果更好，最具迁移性的对抗样本在 p = 10 p = 10 p=10 左右（ p p p 为 I - FGSM 迭代次数），继续增加 p p p 会使成功率下降；而无 ILA 时，更多 I - FGSM 迭代更利于迁移性。对比 ILA，本文方法在相同设置下性能更优，且中间层归一化可略微提升本文方法性能，后续实验均采用 p = 10 p = 10 p=10 及中间层归一化。

图 2. （a）在 VGG19 上生成的用于攻击 WRN 的基线对抗样本（经 ILA 增强或未增强）以及（b）在 WRN 上生成的用于攻击 VGG19 的基线对抗样本（经 ILA 增强或未增强）的迁移性如何随 p p p 变化。虚线表示具有最优 p p p 值时的性能。我们发现，最具迁移性的 I − F G S M + I L A I - FGSM + ILA I−FGSM+ILA 示例（ ϵ = 0.03 \epsilon = 0.03 ϵ=0.03）在 p = 10 p = 10 p=10 左右获得，并且对于 p ≥ 10 p\geq10 p≥10，成功率随着 p p p 的增大而持续下降。

图 3. I - FGSM 对抗样本的迁移性如何通过 ILA 得到增强，（a）是在 VGG19 上生成并用于攻击 WRN 的样本，（b）是在 WRN 上生成并用于攻击 VGG - 19 的样本。我们设 ϵ = 0.03 \epsilon = 0.03 ϵ=0.03

图 4. I - FGSM 示例的迁移性如何通过我们的方法得到增强，（a）是在 VGG - 19 上生成并用于攻击 WRN 的示例，（b）是在 WRN 上生成并用于攻击 VGG - 19 的示例。y 轴的范围与图 3 保持一致，以便于比较。我们设 ϵ = 0.03 \epsilon = 0.03 ϵ=0.03 .

图 5. I - FGSM 示例的迁移性如何通过我们的方法得到增强，（a）是在 VGG - 19 上生成并用于攻击 WRN 的示例，（b）是在 WRN 上生成并用于攻击 VGG - 19 的示例。这里未进行中间层归一化。y 轴的范围与图 3 和图 4 保持一致，以便于比较。我们设 ϵ = 0.03 \epsilon = 0.03 ϵ=0.03
不同 λ \lambda λ值下的方法性能 ： λ \lambda λ 控制线性回归模型的平滑度，在 CIFAR - 100 上用更多受害模型测试不同 λ \lambda λ 值对结果的影响。结果显示小 λ \lambda λ 值导致源模型和受害模型成功率不佳，较大 λ \lambda λ 值（甚至趋近无穷）性能相似， λ = 10 \lambda = 10 λ=10 时平均成功率最优，但 λ → ∞ \lambda \to \infty λ→∞ 时性能也不错且计算成本低，后续实验设 λ → ∞ \lambda \to \infty λ→∞ ，此时本文方法与 ILA 运行时间相近。

图 6. 我们的方法的性能如何随 λ \lambda λ 变化。虚线表示当设置 λ → ∞ \lambda \to \infty λ→∞ 时的成功率。我们设 ϵ = 0.03 \epsilon = 0.03 ϵ=0.03.
表 1. 我们的方法与 ILA 的运行时间比较。
与现有方法对比 ：在 CIFAR - 100 和 ImageNet 上攻击多个模型，主要与 ILA 对比，结果表明本文方法在几乎所有测试案例中均显著优于 ILA，且在不同基线攻击（如 MI - FGSM、PGD、TAP）基础上，本文方法也优于 ILA。本文方法在源模型上成功率略有降低，但生成可迁移对抗样本的能力增强，通过分析交叉熵损失和中间层扰动可知，本文方法产生更大中间层扰动，牺牲少量对抗损失，从而在实践中表现更优。此外，尝试集成不同基线攻击可进一步提升性能，且在选择中间层计算差异位置上，本文方法在多数情况下也优于 ILA，二者最优结果位置相同。
表 2. 在无目标设置下，使用具有对抗扰动 ℓ ∞ \ell_{\infty} ℓ∞约束的 I - FGSM 对 CIFAR - 100 进行基于迁移的攻击性能。符号*表示源模型作为目标时的情况。最佳平均结果用红色显示。

表 3. 在无目标设置下，使用具有 ℓ ∞ \ell_{\infty} ℓ∞ 约束的 I - FGSM 对 ImageNet 进行基于迁移的攻击性能。我们使用符号 ∗ * ∗ 表示源模型被用作目标时的情况。下方的子表是上方子表的延续。最佳平均结果用红色标记。

表 4. 基于迁移的对 ImageNet 的攻击性能。在 ϵ = 0.03 \epsilon = 0.03 ϵ=0.03的相同设置下比较了不同的基线攻击。最佳平均结果用红色标记。

**图 7. 在 ImageNet 上的 ResNet - 50 源模型中，（a）从交叉熵损失和（b）中间层扰动的角度对我们的方法和 ILA 进行比较。 **

图 8. 在 CIFAR - 100 上，针对计算中间层差异时中间层（在 VGG - 19 源模型上）的不同选择，对我们的方法和 ILA 进行比较。彩色查看效果最佳。我们在 ϵ = 0.03 \epsilon = 0.03 ϵ=0.03 的条件下进行了测试。

图 9. 在 ImageNet 上，针对计算中间层差异时中间层（在 ResNet - 50 源模型上）的不同选择，对我们的方法和 ILA 进行比较。层索引"3 - 1"表示第三个元块的第一个块。彩色查看效果最佳。我们在(\epsilon = 0.03)的条件下进行了测试。
实验设置及 ℓ 2 \ell_{2} ℓ2 攻击 ：主要考虑黑盒设置下的无目标 ℓ ∞ \ell_{\infty} ℓ∞ 攻击，也测试了 ℓ 2 \ell_{2} ℓ2 攻击，结果表明本文方法在 ℓ 2 \ell_{2} ℓ2 攻击下仍优于 ILA 和原始基线。实验中对 I - FGSM、PGD 等攻击的步长、采样图像数量、迭代次数、数据预处理等设置进行了说明，同时指出本文学习目标未引入鼓励中间层差异大范数的显式项，未来将考虑。

结论-Conclusion

本文结论部分主要强调了所提方法的创新性和有效性，具体内容如下：

提出了一种新颖的提升对抗样本可迁移性的方法，该方法基于基线攻击，通过分析其优化过程提取方向引导，并利用中间层特征图建立线性映射来估计对抗损失，从而构建出能充分利用基线攻击的对抗目标函数。
经过在 CIFAR - 100 和 ImageNet 上的全面实验研究，证明了该方法的有效性，为后续相关研究提供了新的思路和方法。