TtBA:用于基于决策的对抗攻击的三分之二桥接方法

摘要
黑盒对抗攻击的一个关键挑战是在硬标签设置下的高查询复杂度,在该设置中,只能访问目标深度模型预测的 top-1 标签。在本文中,我们提出了一种新颖的基于法向量的方法,称为三分之二桥接攻击(Two-third Bridge Attack, TtBA)。我们引入了一个创新的桥接方向,它是当前单位扰动方向及其单位法向量的加权组合,由一个权重参数 kkk 控制。我们进一步使用二分搜索来识别 k=kbridgek = k_{\mathrm{bridge}}k=kbridge,此时该方向与当前方向具有相同的决策边界。值得注意的是,我们观察到 k=2/3kbridgek = 2 / 3k_{\mathrm{bridge}}k=2/3kbridge 能产生近乎最优的扰动方向,确保了攻击的隐蔽性。此外,我们研究了扰动方向优化过程中局部最优解的至关重要性,并提出了一种简单有效的方法来检测和逃离此类局部最优解。在 MNIST、FASHION-MNIST、CIFAR10、CIFAR100 和 ImageNet 数据集上的实验结果证明了我们方法的强大性能和可扩展性。与最先进的非目标和目标攻击方法相比,TtBA 在大多数实验数据集和深度学习模型上始终提供优越的性能。代码可在 https://github.com/BUPTAIOCT/TtBA 获取。
1. 引言
背景与动机。尽管深度神经网络(DNN)在广泛的现实世界应用中展现出卓越的性能,但它们仍然显著易受对抗性攻击(Biggio 等人,2013;Brendel 等人,2018;Park 等人,2024)。对这些攻击的研究对于未来推动抗攻击 DNN 的发展至关重要(Bai 等人,2023)。
对抗性攻击方法通常分为三类:白盒攻击(Goodfellow 等人,2015;Madry 等人,2018)、灰盒攻击(软标签攻击、基于分数的攻击)(Chen 等人,2017;Liu 等人,2019a)和黑盒攻击(Brendel 等人,2018;Chen & Gu,2020)。白盒和灰盒攻击依赖于目标模型的完整或部分知识,例如其架构、可训练参数或输出概率,这在现实世界环境中通常是不切实际的(Long 等人,2022)。作为一种更实用的替代方案,黑盒攻击通常分为基于迁移的攻击和基于决策的攻击。基于迁移的攻击(Feng 等人,2022;Ghosh 等人,2022;Fan 等人,2024;Wang 等人,2024;Sun 等人,2024;Park 等人,2024)使用目标模型的训练数据训练一个替代模型。然后在这个替代模型上使用白盒攻击方法制作对抗性示例。然而,由于对抗性示例的迁移性不可靠,这种方法的成功无法保证(Reza 等人,2023)。
基于决策的攻击的重要性。基于决策的攻击(Brendel 等人,2018;Li 等人,2021;Shi 等人,2022;Chen 等人,2020;Chen & Gu,2020;Reza 等人,2023)不依赖于目标 DNN 的具体细节,如训练数据、网络结构或输出概率。相反,对抗性示例仅利用 DNN 的 top-1 预测标签(即模型分配的最高置信度分数的类别)的反馈来制作。这使得基于决策的攻击在实践中成为最流行的策略(Dong 等人,2019;Brunner 等人,2019),也是本文的关键焦点。基于决策的攻击旨在以最小的扰动强度欺骗目标 DNN(例如,图像分类器),同时遵守预定义的查询预算(Brendel 等人,2018)。为了提高效率,这些攻击专注于通过探索扰动方向及其对应的决策边界来优化对抗性示例(更多细节见附录 A)。
基于法向量的攻击。许多基于决策的对抗性攻击,如 HSJA(Chen 等人,2020)、Tangent

图 1. TtBA 中一次迭代的几何图示。在 (a) 中,在第 iii 次迭代时,xxx 代表原始图像,d^i\hat{d}^id^i 是当前扰动方向的单位向量,xˉi\bar{x}^ixˉi 是沿 d^i\hat{d}^id^i 的边界点,N^i\hat{N}^iN^i 是 xˉi\bar{x}^ixˉi 处的单位法向量,xˉlocal\bar{x}{\mathrm{local}}xˉlocal 表示局部最优对抗性示例。我们定义一个方向 dk=k⋅N^i+(1−k)⋅d^id_k = k \cdot \hat{N}^i + (1 - k) \cdot \hat{d}^idk=k⋅N^i+(1−k)⋅d^i,其中 k∈(0,1]k \in (0, 1]k∈(0,1] 是一个权重参数。使用二分搜索,我们可以识别出 k=kbridgeik = k{\mathrm{bridge}}^ik=kbridgei,使得方向 dbridgei=kbridgei⋅N^i+(1−kbridgei)⋅d^id_{\mathrm{bridge}}^i = k_{\mathrm{bridge}}^i \cdot \hat{N}^i + (1 - k_{\mathrm{bridge}}^i) \cdot \hat{d}^idbridgei=kbridgei⋅N^i+(1−kbridgei)⋅d^i 与 d^i\hat{d}^id^i 具有相同的决策边界,即 g(dbridgei)=g(d^i)g(d_{\mathrm{bridge}}^i) = g(\hat{d}^i)g(dbridgei)=g(d^i)。然后我们使用 k=2/3kbridgeik = 2 / 3 k_{\mathrm{bridge}}^ik=2/3kbridgei 直接生成下一个方向:di+1=2/3kbridgei⋅N^i+(1−2/3kbridgei)⋅d^id^{i + 1} = 2 / 3 k_{\mathrm{bridge}}^i \cdot \hat{N}^i + (1 - 2 / 3 k_{\mathrm{bridge}}^i) \cdot \hat{d}^idi+1=2/3kbridgei⋅N^i+(1−2/3kbridgei)⋅d^i,如 (b) 所示。边界点 xˉi+1=x+g(di+1)⋅d^i+1\bar{x}^{i + 1} = x + g(d^{i + 1}) \cdot \hat{d}^{i + 1}xˉi+1=x+g(di+1)⋅d^i+1 产生下一个对抗性示例。
攻击(TA)(Ma 等人,2021)、GeoDA(Rahmati 等人,2020)、QEBA(Li 等人,2020)和 CGBA(Reza 等人,2023),利用决策边界的法向量来提高攻击效率和效果。它们引入高斯噪声来扰动边界点(图 1 中的 xˉi\bar{x}^ixˉi)并查询模型以识别哪些扰动落在对抗区域内,从而能够准确估计法向量(图 1 中的 N^i\hat{N}^iN^i)(详见附录 E)。在最近的研究中(Chen 等人,2020),研究人员表明,局部最优对抗性示例 xˉlocal\bar{x}{\mathrm{local}}xˉlocal 通常位于由 d^i\hat{d}^id^i 和 N^i\hat{N}^iN^i 张成的二维超曲面上,其中法向量 N^i\hat{N}^iN^i 直接指向 xˉlocal\bar{x}{\mathrm{local}}xˉlocal,如图 1 所示。利用这一几何特性,可以找到更接近 xˉlocal\bar{x}_{\mathrm{local}}xˉlocal 的新边界点,作为 N^i\hat{N}^iN^i 和当前边界点 xˉi\bar{x}^ixˉi 的加权组合(Chen 等人,2020;Reza 等人,2023)。
决策边界的曲率对扰动优化有很大影响(Ma 等人,2021;Reza 等人,2023)。特别是,目标攻击通常会产生比非目标攻击更窄的对抗区域和更高的决策边界曲率,使得扰动优化比非目标攻击更具挑战性(Reza 等人,2023)(更多细节见附录 A)。G-TA(Ma 等人,2021)和 CGBA-H(Reza 等人,2023)最近被开发用于针对具有高决策边界曲率的窄对抗区域的目标攻击。虽然提高了查询效率,但它们忽略了由决策边界和目标模型的几何形状变化引起的局部最优解,损害了它们在各种 DNN 上的性能(见第 5 节的实验结果)。我们的研究揭示,无论是目标攻击还是非目标攻击,窄对抗区域都可能将扰动优化困在局部最优解中。为了解决这个问题,我们提出了一种简单而有效的方法来检测窄对抗区域。进一步开发了一种有效的机制来逃离相关的局部最优解并增强性能。
提出的方法。我们提出了一种新颖的三分之二桥接攻击(TtBA)方法。在该方法中,引入了一个新的桥接度量 kbridgek_{\mathrm{bridge}}kbridge,用于基于决策边界的曲率指导扰动优化。
为了提高效率和简化性,TtBA 在第 iii 次迭代(i≥1i \geq 1i≥1)中,通过将当前单位扰动方向 d^i\hat{d}^id^i 与其单位法向量 N^i\hat{N}^iN^i 以 kN^i+(1−k)d^ik \hat{N}^i + (1 - k) \hat{d}^ikN^i+(1−k)d^i 的形式组合来生成新的扰动方向,其中 k∈(0,1]k \in (0, 1]k∈(0,1] 是一个权重参数。TtBA 的几何图示如图 1-(a) 所示。在 TtBA 中,基于决策的攻击简化为优化权重参数 kkk 的问题。我们的目标是找到合适的 kkk 来适当地控制法向量 N^i\hat{N}^iN^i 对更新后的方向的影响。
如果 kkk 太大,dkd_{k}dk 会偏离最优对抗性示例(图 1 中的 x~local\tilde{x}{\mathrm{local}}x~local),使得优化无效。为了确定 kkk 的上界,我们引入一个阈值 k=kbridgeik = k{\mathrm{bridge}}^{\mathrm{i}}k=kbridgei,使得沿 dkd_{k}dk 的决策边界等于当前方向 d~i\tilde{d}^{i}d~i 的决策边界。然后 kkk 在 (0,kbridgei](0, k_{\mathrm{bridge}}^{\mathrm{i}}](0,kbridgei] 范围内进行优化。几何上,TtBA 生成的扰动方向范围类似于一个拱桥,跨越在局部最优对抗性示例 x~local\tilde{x}{\mathrm{local}}x~local 之上,从 x~i\tilde{x}^{i}x~i 延伸到 x~bridgei\tilde{x}{\mathrm{bridge}}^{\mathrm{i}}x~bridgei,如图 1 所示。
我们引入的新度量 kbridgeik_{\mathrm{bridge}}^{\mathrm{i}}kbridgei 揭示了以下有趣的性质。首先,决策边界的曲率可以通过 kbridgeik_{\mathrm{bridge}}^{\mathrm{i}}kbridgei 直接估计,如图 2 所示并在附录 B.3 中进行了理论分析。对于具有高决策边界曲率的窄对抗区域,如图 2-© 所示,kbridgeik_{\mathrm{bridge}}^{\mathrm{i}}kbridgei 很小。相反,对于图 2-(a) 和 2-(b) 中的宽对抗区域,kbridgeik_{\mathrm{bridge}}^{\mathrm{i}}kbridgei 很大。其次,我们发现由 k=2/3kbridgeik = 2 / 3k_{\mathrm{bridge}}^{\mathrm{i}}k=2/3kbridgei 生成的扰动方向非常接近第 iii 次迭代中的最优权重,如图 1-(b) 所示,并在第 4 节中详述。这一发现消除了广泛搜索最优权重的需要,从而显著提高了查询效率。第三,窄对抗区域可能潜在地将优化过程困在局部最优解中。因此,当 kbridgeik_{\mathrm{bridge}}^{\mathrm{i}}kbridgei 非常小(例如,小于 0.1)时,我们增加 kkk(例如,从 2/3kbridgei2 / 3k_{\mathrm{bridge}}^{\mathrm{i}}2/3kbridgei 增加到 0.9kbridgei0.9k_{\mathrm{bridge}}^{\mathrm{i}}0.9kbridgei),允许 di+1d^{i + 1}di+1 显著偏离 x~local\tilde{x}_{\mathrm{local}}x~local,从而逃离局部最优解。
总之,我们的主要贡献如下:(1)我们引入了一个新的度量 kbridgek_{\mathrm{bridge}}kbridge 来检测决策边界的不同曲率,为对抗性攻击的几何特性提供了有价值的见解。(2)我们揭示了 kbridgek_{\mathrm{bridge}}kbridge 与接近最优的扰动方向之间先前未被发现的线性关系。这一见解为开发基于决策攻击的高效方法(TtBA)铺平了道路。(3)我们识别并解决了扰动优化中局部最优解的关键挑战,特别是在具有高决策边界曲率的窄对抗区域中,提出了一种高效的检测和逃离机制,显著提高了攻击性能。(4)在跨越 MNIST、FASHION-MNIST、CIFAR10、CIFAR100 和 ImageNet 的 9 个广泛使用的深度模型上进行的大量实验表明,TtBA 在目标和非目标设置中始终优于四种最先进的基于决策的攻击。
2. 相关工作

图 2. 具有不同曲率的示例决策边界。
基于决策的攻击代表了生成对抗性示例最具挑战性的设置之一。现有的基于决策的攻击可分为随机搜索攻击(Brendel 等人,2018;Brunner 等人,2019;Cheng 等人,2019;2020;Chen & Gu,2020;Li 等人,2021;Maho 等人,2021;Wang 等人,2022)和基于法向量的攻击(Chen 等人,2020;Liu 等人,2019a;Li 等人,2020;Rahmati 等人,2020;Ma 等人,2021;Reza 等人,2023)。
随机搜索攻击。随机搜索攻击通过随机抽样创建候选扰动,然后在每次迭代中通过沿决策边界的二分搜索进行优化。例如,Boundary Attack(Brendel 等人,2018)、Biased Boundary Attack(Brunner 等人,2019)和 AHA(Li 等人,2021)沿决策边界执行随机游走以细化扰动方向。SurFree(Maho 等人,2021)在不使用法向量的情况下探索多个方向。Triangle Attack(Wang 等人,2022)利用三角形扰动结构和低频空间进行高效优化。OPT(Cheng 等人,2019)和 Sign-OPT(Cheng 等人,2020)将硬标签攻击重新表述为通过零阶方法求解的连续优化问题。Chen & Gu (2020) 中的 RayS 采用渐进式方向细分策略,迭代细化扰动方向块以提高搜索效率。
基于法向量的攻击。基于法向量的攻击利用边界点处的法向量来指导扰动优化。例如,HSJA(Chen 等人,2020)估计边界点处的法向量以高效生成对抗性示例。TA(Ma 等人,2021)通过利用虚拟半球切线来最小化扰动,扩展了这一思想。qFool(Liu 等人,2019b)和 GeoDA(Rahmati 等人,2020)利用对抗性示例附近决策边界通常具有低曲率的观察结果,实现了高效的梯度估计。QEBA(Li 等人,2020)通过在空间、频率和固有维度上进行子空间优化来降低查询复杂度。CGBA(Reza 等人,2023)在二维平面上引入了一种新颖的半圆搜索策略,以有效处理几何复杂性。BounceAttack(Wan 等人,2024)通过利用正交梯度分量并引入平滑搜索机制改进了 HSJA。
尽管现有方法采用了各种几何方法进行扰动优化,但它们未能深入分析边界曲率在不同模型和数据集之间的变化。本文通过引入新颖的技术来识别具有高曲率决策边界的窄对抗区域,并有效逃离相关的局部最优解,从而显著提高攻击的效果和效率,解决了这些局限性。
3. 问题定义
令 x=(p1,1,1,...,pC,W,H)x = (p_{1,1,1},\ldots ,p_{\mathrm{C,W,H}})x=(p1,1,1,...,pC,W,H),其中 pc,w,h∈[0,1]p_{\mathrm{c,w,h}}\in [0,1]pc,w,h∈[0,1],表示一个形状为 C×W×HC\times W\times HC×W×H 的源图像,CCC、WWW 和 HHH 分别对应图像的通道数、宽度和高度。令 y(x)y(x)y(x) 表示 xxx 的真实标签,f:x→{1,...,K}f:x\rightarrow \{1,\ldots ,K\}f:x→{1,...,K} 表示一个 KKK 类图像分类模型。给定一个源图像 xxx,它被模型正确分类(即 f(x)=y(x)f(x) = y(x)f(x)=y(x))。一个基于决策的黑盒攻击者只能查询 top-1 分类标签 f(x)f(x)f(x),并且无法访问分类器 fff 的内部结构和参数。目标是找到一个对抗性示例 x~=(p~1,1,1,...,p~C,W,H),p~c,w,h∈[0,1]\tilde{x} = (\tilde{p}{1,1,1},\ldots ,\tilde{p}{\mathrm{C,W,H}}),\tilde{p}{\mathrm{c,w,h}}\in [0,1]x~=(p~1,1,1,...,p~C,W,H),p~c,w,h∈[0,1],使得对于非目标攻击有 f(x~)≠y(x)f(\tilde{x})\neq y(x)f(x~)=y(x),或者对于目标攻击有 f(x~)=f(xtarget)f(\tilde{x}) = f(x{\mathrm{target}})f(x~)=f(xtarget),其中 xtargetx_{\mathrm{target}}xtarget 是一个给定的目标图像且 f(xtarget)≠y(x)f(x_{\mathrm{target}})\neq y(x)f(xtarget)=y(x),同时最小化扰动强度 ∥x~−x∥v\| \tilde{x} - x\|{v}∥x~−x∥v。vvv 表示用于度量扰动强度的范数,例如 ℓ2\ell_2ℓ2 或 ℓ∞\ell{\infty}ℓ∞(Zhou 等人,2025)。我们遵循许多现有研究(Chen 等人,2020;Reza 等人,2023),采用 ℓ2\ell_2ℓ2 范数。优化对抗性示例 x~\tilde{x}x~ 的问题可以表述为:
argminx~∥x~−x∥2s.t.I(x~)=1,(1)\arg \min_{\tilde{x}}\| \tilde{x} -x\|_{2}\quad \mathrm{s.t.}I(\tilde{x}) = 1, \quad (1)argx~min∥x~−x∥2s.t.I(x~)=1,(1)
其中 I(⋅)I(\cdot)I(⋅) 是一个指示函数,用于确定对抗性示例 x~\tilde{x}x~ 是否在对抗区域内。对于非目标攻击:
I(x~)={1,iff(x~)≠y(x),−1,otherwise.(2)I(\tilde{x}) = \left\{ \begin{array}{ll}1, & \mathrm{if} f(\tilde{x})\neq y(x),\\ -1, & \mathrm{otherwise}. \end{array} \right. \quad (2)I(x~)={1,−1,iff(x~)=y(x),otherwise.(2)
对于带有目标图像 xtargetx_{\mathrm{target}}xtarget 的目标攻击:
I(x~)={1,iff(x~)=f(xtarget),−1,otherwise.(3)I(\tilde{x}) = \left\{ \begin{array}{ll}1, & \mathrm{if} f(\tilde{x}) = f(x_{\mathrm{target}}),\\ -1, & \mathrm{otherwise}. \end{array} \right. \quad (3)I(x~)={1,−1,iff(x~)=f(xtarget),otherwise.(3)
为了便于理解,先前的研究(Brendel 等人,2018;Cheng 等人,2019;Reza 等人,2023)通过二维平面对公式 (1) 的优化空间进行近似,如图 1 所示。他们还利用扰动方向(记为 ddd)及其对应的决策边界(记为 g(d)g(d)g(d))来生成对抗性示例。
令 d=(v1,1,1,...,vC,W,H),vc,w,h∈[−1,1]d = (v_{1,1,1},\ldots ,v_{\mathrm{C,W,H}}),v_{\mathrm{c,w,h}}\in [- 1,1]d=(v1,1,1,...,vC,W,H),vc,w,h∈[−1,1],表示一个扰动方向。一个对抗性示例 x~\tilde{x}x~ 可以定义为 x~=clip(x+(x~−x))=clip(x+d)=clip(x+∥d∥2⋅d^)\tilde{x} = clip(x + (\tilde{x} - x)) = clip(x + d) = clip(x + \| d\| _2\cdot \hat{d})x~=clip(x+(x~−x))=clip(x+d)=clip(x+∥d∥2⋅d^),其中 clip(⋅)clip(\cdot)clip(⋅) 将每个像素约束到 [0,1][0,1][0,1] 范围内,而 d^=d∥d∥2\hat{d} = \frac{d}{\|d\|_2}d^=∥d∥2d 是通过使用 ℓ2\ell_2ℓ2 范数归一化 ddd 得到的单位向量。对于任何方向 ddd,其决策边界定义为 g(d)=min{r>0:I(x+r⋅d^)=1}g(d) = \min \{r > 0: I(x + r\cdot \hat{d}) = 1\}g(d)=min{r>0:I(x+r⋅d^)=1},对应的边界点为 x~=x+g(d)⋅d^\tilde{x} = x + g(d)\cdot \hat{d}x~=x+g(d)⋅d^。相应地,公式 (1) 中的优化问题可以重新定义(Reza 等人,2023)为:
argmindg(d)s.t.I(x+g(d)⋅d^)=1.(4)\arg \min_{d}g(d)\quad \mathrm{s.t.}I(x + g(d)\cdot \hat{d}) = 1. \quad (4)argdming(d)s.t.I(x+g(d)⋅d^)=1.(4)
方向 ddd 的决策边界 g(d)g(d)g(d) 可以使用二分搜索进行估计(Reza 等人,2023),如附录 D 中的算法 2 所述。

图 3. TtBA 多次迭代中决策边界 g(dk)=g(k⋅N^+(1−k)⋅d^)g(d_k) = g(k\cdot \hat{N} +(1 - k)\cdot \hat{d})g(dk)=g(k⋅N^+(1−k)⋅d^) 的 g(dk)−kg(d_k) - kg(dk)−k 曲线。

图 4. 用于生成局部最优对抗性示例 x~local\tilde{x}{\mathrm{local}}x~local 的局部最优权重参数 klocalk{\mathrm{local}}klocal 的分布。

4. 提出的方法
TtBA 在第 iii 次迭代确定扰动方向 dkd_{k}dk 为当前单位方向 d^i\hat{d}^{i}d^i 及其单位法向量 N^i\hat{N}^{i}N^i 的加权组合。
dk=k⋅N^i+(1−k)⋅d^i,k∈(0,1],(5)d_{k} = k\cdot \hat{N}^{i} + (1 - k)\cdot \hat{d}^{i},\quad k\in (0,1], \quad (5)dk=k⋅N^i+(1−k)⋅d^i,k∈(0,1],(5)
其中权重参数 kkk 在方向 N^i\hat{N}^{i}N^i 和 d^i\hat{d}^{i}d^i 之间插值。通过识别一个关键的桥接阈值 k=kbridgeik = k_{\mathrm{bridge}}^{i}k=kbridgei(定义如下),我们可以有效地利用决策边界曲率来高效地优化扰动方向。
最近的许多研究(Brendel 等人,2018;Cheng 等人,2019;Chen & Gu,2020;Li 等人,2021;Chen 等人,2020;Reza 等人,2023)表明决策边界是平滑且局部凹的。为了进一步理解决策边界 g(dk)g(d_{k})g(dk) 的几何特性,我们以 0.01 的步长迭代增加 kkk,并使用附录 D 中的算法 2 估计 g(dk)g(d_{k})g(dk)。使用 TtBA 攻击 VGG 模型时得到的 g(dk)−kg(d_{k}) - kg(dk)−k 曲线绘制在图 3 中。在此图中,k=klocalk = k_{\mathrm{local}}k=klocal 对应于 g(dk)g(d_{k})g(dk) 的局部最小值,而 k=kbridgeik = k_{\mathrm{bridge}}^{i}k=kbridgei 给出了权重参数 kkk 的上界。因此,klocalk_{\mathrm{local}}klocal 被定义为在 TtBA 当前迭代中,由 d^i\hat{d}^{i}d^i 和 N^i\hat{N}^{i}N^i 张成的二维平面上确定决策边界局部最小值的权重。注意,当 k>kbridgeik > k_{\mathrm{bridge}}^{i}k>kbridgei 时,g(dk)g(d_{k})g(dk) 大于当前方向的决策边界,即 g(dk)>g(d^i)g(d_{k}) > g(\hat{d}^{i})g(dk)>g(d^i),导致如图 1 所示的大扰动。因此,我们首先执行二分搜索来确定阈值 kbridgeik_{\mathrm{bridge}}^{i}kbridgei 和方向 dbridgeid_{\mathrm{bridge}}^{i}dbridgei,使得 g(dbridgei)=g(d^i)g(d_{\mathrm{bridge}}^{i}) = g(\hat{d}^{i})g(dbridgei)=g(d^i),然后在 (0,kbridgei](0,k_{\mathrm{bridge}}^{i}](0,kbridgei] 范围内优化权重参数 kkk 以找到 klocalk_{\mathrm{local}}klocal。
为了理解 klocalk_{\mathrm{local}}klocal 和 kbridgeik_{\mathrm{bridge}}^{i}kbridgei 之间的统计关系,我们分析了基于 ViT(Dosovitskiy,2020)和 VGG(Simonyan & Zisserman,2015)模型的 100 张图像的 g(dk)−kg(d_{k}) - kg(dk)−k 曲线,klocalk_{\mathrm{local}}klocal 的分布如图 4 所示。该图揭示了 klocalk_{\mathrm{local}}klocal 与阈值 kbridgeik_{\mathrm{bridge}}^{i}kbridgei 之间存在强线性关系(理论分析见附录 B.5)。它使我们能够直接使用 kbridgeik_{\mathrm{bridge}}^{i}kbridgei 识别接近最优的 klocalk_{\mathrm{local}}klocal。例如,如图 3 所示,在 TtBA 的第 10 次迭代中,当 kbridgei=0.22k_{\mathrm{bridge}}^{i} = 0.22kbridgei=0.22 时,局部最优出现在 klocal=0.13k_{\mathrm{local}} = 0.13klocal=0.13,得到比率 klocalkbridgei=0.591≈2/3\frac{k_{\mathrm{local}}}{k_{\mathrm{bridge}}^{i}} = 0.591 \approx 2 / 3kbridgeiklocal=0.591≈2/3。通过分析来自不同数据集的 100 张图像上 klocalk_{\mathrm{local}}klocal 的分布,如图 4 所示,我们发现 klocalkbridgei\frac{k_{\mathrm{local}}}{k_{\mathrm{bridge}}^{i}}kbridgeiklocal 集中在 [0.5,0.7][0.5,0.7][0.5,0.7] 范围内。基于此观察,TtBA 使用 ki+1=bˇ⋅kbridgeik^{i + 1} = \check{b}\cdot k_{\mathrm{bridge}}^{i}ki+1=bˇ⋅kbridgei 来确定每次迭代的 klocalk_{\mathrm{local}}klocal,从而无需进一步搜索 klocalk_{\mathrm{local}}klocal。在本文中,我们使用 ki+1=2/3kbridgeik^{i + 1} = 2 / 3k_{\mathrm{bridge}}^{i}ki+1=2/3kbridgei 来高效地生成下一个扰动(更多细节见附录 G)。在此思想的驱动下,我们提出了 TtBA,其伪代码如算法 1 所示。
在算法 1 的第 3 行,我们首先遵循 HSJA(Chen 等人,2020)和 CGBA(Reza 等人,2023)中的扰动生成方法来生成初始扰动方向(详见附录 F 的算法 4)。在第 5 行,在算法 1 的每次迭代中,我们遵循 HSJA(Chen 等人,2020)和 CGBA(Reza 等人,2023)中的方法在当前边界点 x~i\tilde{x}^{i}x~i 处生成一个法向量 NiN^{i}Ni(详见附录 E 的算法 3)。第 6-17 行执行二分搜索,以 δ\deltaδ 的精度在 [0,1][0,1][0,1] 中找到 kbridgeik_{\mathrm{bridge}}^{i}kbridgei。对 kbridgek_{\mathrm{bridge}}kbridge 进行二分搜索只会产生最少的查询,以实现高攻击效率,详见附录 C。根据经验,我们发现 TtBA 在 10,000 次查询预算下平均运行 57 次迭代。每次迭代使用大约 10 次查询进行二分搜索,以达到 δ=0.001\delta = 0.001δ=0.001 的精度来实现 kbridgeik_{\mathrm{bridge}}^{i}kbridgei。570 次查询(57×1057 \times 1057×10)的总成本仅占查询预算的 5.7%,显著提高了攻击性能。
在第 18-19 行,kbridgei≥k^=0.2k_{\mathrm{bridge}}^{\mathrm{i}} \geq \hat{k} = 0.2kbridgei≥k^=0.2 表示决策边界具有低曲率,且算法未陷入任何局部最优。在这种情况下,权重参数 ki+1=bˇ⋅kbridgei=2/3kbridgeik^{i + 1} = \check{b} \cdot k_{\mathrm{bridge}}^{\mathrm{i}} = 2 / 3 k_{\mathrm{bridge}}^{\mathrm{i}}ki+1=bˇ⋅kbridgei=2/3kbridgei。在第 20-21 行,kbridgei≤kˇ=0.1k_{\mathrm{bridge}}^{\mathrm{i}} \leq \check{k} = 0.1kbridgei≤kˇ=0.1,表示决策边界具有高曲率,且算法陷入了局部最优。为了逃离此局部最优,我们根据 ki+1=b^⋅kbridgei=0.9kbridgeik^{i + 1} = \hat{b} \cdot k_{\mathrm{bridge}}^{\mathrm{i}} = 0.9 k_{\mathrm{bridge}}^{\mathrm{i}}ki+1=b^⋅kbridgei=0.9kbridgei 增加权重,迫使 di+1d^{i + 1}di+1 偏离 x~local\tilde{x}{\mathrm{local}}x~local 的扰动方向。这种逃离局部最优方法的有效性在附录 G 中进行了分析。如图 2 和图 3 所示,具有高决策边界曲率的窄对抗区域往往深度较浅(更多细节见附录 B.4),限制了扰动幅度的优化。增加 ki+1k^{i + 1}ki+1 可能导致 di+1d^{i + 1}di+1 偏离局部最优 x~local\tilde{x}{\mathrm{local}}x~local,但与 x~local\tilde{x}{\mathrm{local}}x~local 相比,不会显著增加 ℓ2\ell{2}ℓ2 范数。
在第 23 行,如果 kbridgeik_{\mathrm{bridge}}^{\mathrm{i}}kbridgei 落在 [kˇ=0.1,k^=0.2][\check{k} = 0.1, \hat{k} = 0.2][kˇ=0.1,k^=0.2] 范围内,则认为决策边界具有中等曲率,可能导致优化过程停滞在局部最优。为了解决这个问题,ki+1k^{i + 1}ki+1 被选为 b^⋅kbridgei\hat{b} \cdot k_{\mathrm{bridge}}^{\mathrm{i}}b^⋅kbridgei 和 bˇ⋅kbridgei\check{b} \cdot k_{\mathrm{bridge}}^{\mathrm{i}}bˇ⋅kbridgei 之间的加权插值,以适当地平衡稳定性和探索性。具体来说,通过赋予法向量更大的权重,TtBA 促进了对扰动方向的更广泛探索,降低了过早收敛到局部最优的风险。在第 25 行,使用更新的权重 ki+1k^{i + 1}ki+1,将新的方向 di+1d^{i + 1}di+1 计算为单位当前方向 d^i\hat{d}^{i}d^i 和单位法向量 N^i\hat{N}^{i}N^i 的加权组合。在第 26 行,沿 di+1d^{i + 1}di+1 执行二分搜索(见附录 D 的算法 2)以识别边界点 x~i+1\tilde{x}^{i + 1}x~i+1 作为当前迭代的对抗性示例。
5. 实验
在本节中,我们通过一系列实验评估 TtBA 的有效性,并将其在目标和非目标场景下的性能与最先进的基于决策的黑盒攻击进行比较。
5.1. 实验设置
实验硬件配置。实验使用 Intel Xeon Gold 6330 CPU 和 NVIDIA GeForce RTX 4090 GPU,运行 PyTorch 2.3.0、Torchvision 0.18.0 和 Python 3.11.5。
对比方法。我们将 TtBA 的性能与四种最先进的基于决策的攻击进行比较,包括 HSJA(Chen 等人,2020)、TA(Ma 等人,2021)、CGBA 及其变体 CGBA-H(Reza 等人,2023),涵盖非目标和目标场景。这些方法通常被用作基于决策攻击的基线(Ma 等人,2021;Reza 等人,2023)。其中,CGBA 及其变体 CGBA-H 已分别证明在非目标和目标设置中具有最佳的攻击性能,且 ℓ2\ell_2ℓ2 扰动最小。因此,我们选择这些方法进行比较。
超参数设置。我们采用 (Reza et al., 2023) 中推荐的超参数设置来搜索决策边界和法向量。具体来说,对于所有四种对比算法和 TtBA,决策边界搜索容差 τ=0.0001\tau = 0.0001τ=0.0001。对于 ImageNet 数据集,降维因子设置为 s=4s = 4s=4,对于所有其他数据集,s=1s = 1s=1。在 TtBA 中,确定 kbridgeik_{\mathrm{bridge}}^{\mathrm{i}}kbridgei 的搜索容差 δ=0.001\delta = 0.001δ=0.001。根据附录 G 中的参数敏感性分析,设置阈值 kˇ=0.1\check{k} = 0.1kˇ=0.1 和 k^=0.2\hat{k} = 0.2k^=0.2,以及桥接系数 b^=0.9\hat{b} = 0.9b^=0.9 和 bˇ=2/3\check{b} = 2 / 3bˇ=2/3。
基准数据集和模型。为了评估 TtBA 的有效性和可扩展性,我们选择了五个数据集和 9 个典型模型,如下所示:
- MNIST-CNN:MNIST 数据集(LeCun 等人,1998),以及一个基准 7 层 MNIST-CNN(Cheng 等人,2020;Chen & Gu,2020),训练后达到 99.4% 的准确率;
- FASHION-MNIST-CNN:FASHION MNIST 数据集(Xiao 等人,2017),以及一个基准 7 层 FASHION-MNIST-CNN(Cheng 等人,2020;Chen & Gu,2020),训练后达到 91.0% 的准确率;
- CIFAR10-CNN:CIFAR10 数据集(Krizhevsky 等人,2009),以及一个基准 7 层 CIFAR10-CNN(Cheng 等人,2020;Chen & Gu,2020),训练后达到 82.5% 的准确率;
- CIFAR100-ViT:CIFAR100 数据集(Krizhevsky 等人,2009),以及一个著名的 ViT 模型(Dosovitskiy,2020),训练后达到 89.9% 的准确率;
- ImageNet 数据集(Deng 等人,2009),以及五个著名的机器学习模型:ImageNet-VGG19(Simonyan & Zisserman,2015)、ImageNet-ResNet50(He 等人,2016)、ImageNet-ViT(Dosovitskiy,2020)、ImageNet-EfficientNet(Tan & Le,2019)和 ImageNet-Inception(Szegedy 等人,2016)。
5.2. 主要结果
性能指标。遵循最先进的黑盒攻击(Brendel 等人,2018;Li 等人,2021;Reza 等人,2023),我们采用 ℓ2\ell_2ℓ2 范数来衡量扰动强度。对于每个模型,我们从测试数据集中随机选择 1000 张图像。表 1 展示了在 2,000、5,000 和 10,000 次查询预算下,所有对比方法在非目标和目标攻击中取得的平均和中位 ℓ2\ell_2ℓ2 范数。
表 1. 不同查询预算(QUE)下目标和非目标黑盒攻击的扰动平均(中位)ℓ2\ell_2ℓ2 范数。

结果。 对于表 1 中的非目标攻击,我们提出的 TtBA 在 9 个模型中的 7 个上,在 2000 到 10,000 次查询范围内取得了最佳性能。在 ImageNet 数据集上,对于 ResNet50 和 Efficient 模型,TtBA 将 ℓ2\ell_2ℓ2 扰动比其他方法降低了超过 20%20\%20%。在 CIFAR10-CNN 和 CIFAR100-ViT 模型上,CGBA 在 2,000 次查询时在平均和中位 ℓ2\ell_2ℓ2 范数方面优于 TtBA。然而,TtBA 在这两个模型的 5,000 和 10,000 次查询时均超过了 CGBA。在目标攻击中,TtBA 在几乎所有测试场景中都超过了其他方法,涵盖了 9 个模型和各种查询预算。唯一的例外是在 CIFAR100-ViT 模型上,在 10,000 次查询时,CGBA-H 实现了略低的平均 ℓ2\ell_2ℓ2 范数(4,327 对比 4,464)。这一结果表明 TtBA 优于其他方法,尤其是在目标攻击设置中。

图 5. 针对对抗性训练的 WideResNet 模型的中位 ℓ2\ell_2ℓ2 扰动。
TtBA 针对不同查询预算(QUE)生成的扰动图像如图 6 所示。在此图中,扰动方向被归一化到 [0,1][0,1][0,1] 范围,以说明它们如何随着查询预算的增加而减小,从非目标攻击中的随机噪声开始,到目标攻击中的目标图像。
5.3. 对抗性训练模型上的结果
基于对抗性训练的防御方法通过显著降低硬标签攻击的成功率,在增强模型鲁棒性方面发挥着至关重要的作用(Chen & Gu,2020;Chakraborty 等人,2021)。我们评估了 TtBA 在 (Wang et al., 2023) 中开发的最先进的对抗性训练模型上的有效性。这些模型因其对对抗鲁棒性的关注而成为高度相关的基准,使其成为评估 TtBA 性能的理想选择。在我们的实验中,我们专门测试了 WideResNet 模型(Wang 等人,2023),这些模型使用 (Zagoruyko, 2016) 中的技术进行训练,以实现强大的鲁棒性。我们将 TtBA 与其他领先的攻击方法(包括 HSJA、TA、CGBA 和 CGBA-H)在 CIFAR-100 和 Tiny-ImageNet 数据集上进行比较。对于每个数据集,我们随机选择 500 张图像进行目标和非目标攻击实验,遵守 10,000 次查询的预算限制。具体来说,我们采用 (Wang et al., 2023) 中的 WideResNet WRN-70-16 模型用于 CIFAR-100,以及 WRN-28-10 模型用于 Tiny-ImageNet。过去的研究表明,这些模型在各自的数据集上具有很强的防御性能(Wang 等人,2023)。
为了评估 TtBA 的普遍适用性,我们遵循第 5.1 节中介绍的相同超参数设置。关于不同查询次数的中位 ℓ2\ell_2ℓ2 曲线如图 5 所示。图 5-(a) 和 (b) 的结果表明,在 CIFAR100 数据集上,TtBA 在目标和非目标攻击中均优于所有对比方法。对于 tiny-ImageNet 数据集,图 5-© 显示 TtBA 在非目标攻击中取得了最佳性能。然而,对于目标攻击,如图 5-(d) 所示,CGBA-H 在 1,000 到 4,000 次查询预算范围内表现最佳。超过 4,000 次查询后,TtBA 超过了 CGBA-H。
6. 结论与未来工作
在本文中,我们提出了一种新颖且高效的基于决策的黑盒对抗攻击方法------三分之二桥接攻击(TtBA)。我们的方法引入了桥接方向的概念,通过权重参数 kbridgek_{\mathrm{bridge}}kbridge 有效地将当前扰动方向与其法向量结合起来。我们识别并成功解决了高决策边界曲率区域中局部最优解的挑战,显著增强了攻击的有效性。此外,通过理论分析和大量实验,我们证明使用 2/3kbridge2 / 3k_{\mathrm{bridge}}2/3kbridge 能在最小化对抗性示例的 ℓ2\ell_2ℓ2 距离方面持续产生接近最优的结果。在多个数据集(MNIST、FASHION-MNIST、CIFAR10、CIFAR100 和 ImageNet)和 9 个深度学习模型上进行的大量评估表明,TtBA 在目标和非目标攻击场景中都能持续优于最先进的方法。我们的工作不仅推进了对抗性机器学习领域的发展,而且通过新颖的 kbridgek_{\mathrm{bridge}}kbridge 度量为理解决策边界的几何特性提供了宝贵的见解。
TtBA 的未来研究方向在几个方面前景广阔。首先,将 TtBA 适应于基于分数的攻击场景,可以利用概率输出来显著降低查询复杂度。其次,将 TtBA 纳入多目标优化框架,可以通过联合优化扰动不可感知性、跨模型迁移性和查询效率来增强现实世界的部署能力。本文从决策边界分析中获得的几何见解可以扩展到传统攻击场景之外,可能使语音识别、文本分类和目标检测等领域的对抗性机器学习任务受益。

图 6. TtBA 针对不同查询预算生成的对抗性示例及对应的扰动方向。
A. 附录引言
在现实世界的应用中,较低的扰动强度使对抗性示例对人类观察者更不明显。因此,基于决策的攻击旨在以最小的扰动强度欺骗目标 DNN(即图像分类器),同时受限于预定的查询预算(Brendel 等人,2018)。为了提高攻击效率,基于决策的攻击专注于探索扰动方向和相应的决策边界以优化对抗性示例(Brendel 等人,2018;Chen & Gu,2020;Reza 等人,2023)。扰动方向是一个逐像素的向量,指导对抗性修改。其决策边界定义了沿该扰动方向误导模型所需的最小扰动幅度。因此,具有低决策边界的方向是非常理想的。如图 1 所示,xxx 是原始图像,橙色区域的边界代表了图像分类中 DNN 的决策边界。图 1 中的点 x~i\tilde{x}^{i}x~i 和 x~bridgei\tilde{x}{\mathrm{bridge}}^{i}x~bridgei 分别是沿扰动方向 d^i\hat{d}^{i}d^i 和 d^bridgei\hat{d}{\mathrm{bridge}}^{i}d^bridgei 的边界点。
决策边界的曲率对扰动优化有很大影响(Ma 等人,2021;Reza 等人,2023)。特别是,目标攻击通常会产生比非目标攻击更窄的对抗区域和更高的决策边界曲率,使得扰动优化比非目标攻击更具挑战性(Reza 等人,2023)。如图 2-© 所示,对抗区域在目标攻击中收缩,使得难以找到有效的对抗性示例,严重损害了攻击效果和查询效率(Reza 等人,2023)。因此,在窄对抗区域内高效优化扰动是一个至关重要的实际挑战(Reza 等人,2023)。克服这一障碍是提高基于决策攻击有效性的关键。
B. 决策边界的几何分析
B.1. 定义决策边界的超曲面
目标 DNN 模型 fff 的决策边界可以表征为与输入 xxx 相关联的超曲面 SSS。具体来说,SSS 是恰好位于 xxx 类别与其他类别之间边界上的所有点 x~\tilde{x}x~ 的集合。对于任何方向 d∈RC×W×Hd\in \mathbb{R}^{C\times W\times H}d∈RC×W×H,沿 ddd 存在唯一的边界点 x~\tilde{x}x~,由跨越决策边界所需的最小扰动决定。形式上,SSS 可以定义为:
S={x~=x+g(d)⋅d∥d∥2∣∀d≠0,I(x~)=1},(6)S = \left\{\tilde{x} = x + g(d)\cdot \frac{d}{\|d\|_2}\mid \forall d\neq 0,I(\tilde{x}) = 1\right\} , \quad (6)S={x~=x+g(d)⋅∥d∥2d∣∀d=0,I(x~)=1},(6)
其中 I(⋅)I(\cdot)I(⋅) 是确定 x~\tilde{x}x~ 是否位于对抗区域内的指示函数,g(d)g(d)g(d) 是沿方向 ddd 的决策边界,d∥d∥2\frac{d}{\|d\|_2}∥d∥2d 是单位方向向量。HSJA(Chen 等人,2020)证明,沿任何方向 ddd 在 SSS 上只存在一个边界点。此外,由于超曲面 SSS 关于 ddd 是光滑的,决策边界 g(d)g(d)g(d) 关于 ddd 也是光滑的。
B.2. 决策边界的局部泰勒展开
由于在高维输入空间 C×W×HC\times W\times HC×W×H 中研究 SSS 的性质具有挑战性,现有研究如 (Chen et al., 2020; Ma et al., 2021; Reza et al., 2023) 专注于研究由当前扰动向量 d^i\hat{d}^{i}d^i 和法向量 N^i\hat{N}^{i}N^i 定义的二维平面与决策边界相交处的曲线。这种二维简化是有效的,因为 N^i\hat{N}^{i}N^i 指示了局部最优扰动的方向,使得搜索新方向更高效。为简单起见,我们将决策边界 G(k)=g(k⋅N^i+(1−k)⋅d^i)G(k) = g(k\cdot \hat{N}^{i} + (1 - k)\cdot \hat{d}^{i})G(k)=g(k⋅N^i+(1−k)⋅d^i) 视为 kkk 的函数,并在此二维平面上分析 G(k)G(k)G(k) 的性质。我们将 G(k)G(k)G(k) 在起点 k=0k = 0k=0 附近展开为泰勒级数:
G(k)=g(d^i)+ak+12bk2+16ck3+O(k4),(7)G(k) = g(\hat{d}^{i}) + ak + \frac{1}{2} bk^{2} + \frac{1}{6} ck^{3} + \mathcal{O}(k^{4}), \quad (7)G(k)=g(d^i)+ak+21bk2+61ck3+O(k4),(7)
a=∂G∂k∣k=0<0a = \frac{\partial G}{\partial k}\big|{k = 0}< 0a=∂k∂G k=0<0 是一阶导数,代表沿 N^i\hat{N}^{i}N^i 方向的初始斜率,
b=∂2G∂k2∣k=0>0b = \frac{\partial^{2}G}{\partial k^{2}}\big|{k = 0} > 0b=∂k2∂2G k=0>0 是二阶导数,主导局部曲率,
c=∂3G∂k3∣k=0c = \frac{\partial^{3}G}{\partial k^{3}}\big|_{k = 0}c=∂k3∂3G k=0 是三阶导数,描述曲率变化率,
O(k4)\mathcal{O}(k^4)O(k4) 表示高阶项。
为了找到 kbridgeik_{\mathrm{bridge}}^{i}kbridgei,我们设
G(k)=g(d^i)+ak+12bk2+16ck3+O(k4)=g(d^i).G(k) = g(\hat{d}^{i}) + ak + \frac{1}{2} bk^{2} + \frac{1}{6} ck^{3} + \mathcal{O}(k^{4}) = g(\hat{d}^{i}).G(k)=g(d^i)+ak+21bk2+61ck3+O(k4)=g(d^i).
忽略三阶项 16ck3\frac{1}{6} ck^{3}61ck3 和高阶项,方程简化为
G(k)=g(d^i)+ak+12bk2=g(d^i).G(k) = g(\hat{d}^{i}) + ak + \frac{1}{2} bk^{2} = g(\hat{d}^{i}).G(k)=g(d^i)+ak+21bk2=g(d^i).
将 g(d^i)g(\hat{d}^{i})g(d^i) 移到右侧得到
ak+12bk2=0.ak + \frac{1}{2} bk^{2} = 0.ak+21bk2=0.
此方程有两个解:
k=0anda+12bk=0,k = 0\quad \mathrm{and}\quad a + \frac{1}{2} bk = 0,k=0anda+21bk=0,
从而得到
k=−2ab.k = -\frac{2a}{b}.k=−b2a.
由于 kbridgei>0k_{\mathrm{bridge}}^{i} > 0kbridgei>0,我们得到
kbridgei=−2ab.(8)k_{\mathrm{bridge}}^{i} = -\frac{2a}{b}. \quad (8)kbridgei=−b2a.(8)
B.3. 曲率与 kbridgek_{\mathrm{bridge}}kbridge 之间的关系
在 k=0k = 0k=0 处,二维平面中决策边界的曲率 κ\kappaκ 可由泰勒展开系数导出为:
κ=∣f′′(k)∣(1+(f′(k))2)3/2=b(1+a2)3/2.(9)\kappa = \frac{|f''(k)|}{(1 + (f'(k))^2)^{3 / 2}} = \frac{b}{(1 + a^2)^{3 / 2}}. \quad (9)κ=(1+(f′(k))2)3/2∣f′′(k)∣=(1+a2)3/2b.(9)
当高阶项可忽略时(即 ∣a∣≪1|a|\ll 1∣a∣≪1 且 ∣ck3∣≪∣bk2∣|ck^{3}|\ll |bk^{2}|∣ck3∣≪∣bk2∣),曲率可近似为:
κ≈b≈−2akbridgei,withκ∝1kbridgei.(10)\kappa \approx b\approx -\frac{2a}{k_{\mathrm{bridge}}^{i}},\quad \mathrm{with}\quad \kappa \propto \frac{1}{k_{\mathrm{bridge}}^{i}}. \quad (10)κ≈b≈−kbridgei2a,withκ∝kbridgei1.(10)
此近似在 kkk 邻域内的小攻击步长下有效。这意味着随着决策边界 G(k)G(k)G(k) 的曲率增加,kbridgeik_{\mathrm{bridge}}^{i}kbridgei 减小。因此,kbridgeik_{\mathrm{bridge}}^{i}kbridgei 可作为决策边界曲率的指标。
B.4. 决策边界的最小点和最小值
临界点与最小决策边界
G(k)G(k)G(k) 的一阶导数为:
G′(k)=a+bk+12ck2+O(k3).(11)G^{\prime}(k) = a + bk + \frac{1}{2} ck^{2} + \mathcal{O}(k^{3}). \quad (11)G′(k)=a+bk+21ck2+O(k3).(11)
设 G′(k)=0G^{\prime}(k) = 0G′(k)=0 求临界点,解:
a+bk+12ck2≈0(忽略O(k3)).(12)a + bk + \frac{1}{2} ck^{2}\approx 0\quad (\mathrm{忽略}\mathcal{O}(k^{3})). \quad (12)a+bk+21ck2≈0(忽略O(k3)).(12)
二次近似情况 (c=0)(c = 0)(c=0):当高阶项可忽略 (c≈0)(c\approx 0)(c≈0) 时,临界点简化为:
kmin=−ab.(13)k_{\mathrm{min}} = -\frac{a}{b}. \quad (13)kmin=−ba.(13)
二阶导数 G′′(k)=b+ck+O(k2)G^{\prime \prime}(k) = b + ck + \mathcal{O}(k^{2})G′′(k)=b+ck+O(k2) 必须满足 G′′(kmin)>0G^{\prime \prime}(k_{\mathrm{min}}) > 0G′′(kmin)>0 才能成为局部最小值。在 c≈0c\approx 0c≈0 下,这简化为 b>0b > 0b>0,与正曲率一致。
-
小斜率 (∣a∣≪1)(|a|\ll 1)(∣a∣≪1):此时,κ≈b\kappa \approx bκ≈b,式 (13) 变为:
kmin≈−aκ.(14)k_{\min}\approx -\frac{a}{\kappa}. \quad (14)kmin≈−κa.(14)
对于固定的 aaa,增加 κ\kappaκ(即更尖锐的曲率)会使 kmin→0k_{\min}\to 0kmin→0。最小值为:
G(kmin)≈g(d^)−a22κ.(15)G(k_{\min})\approx g(\hat{d}) - \frac{a^2}{2\kappa}. \quad (15)G(kmin)≈g(d^)−2κa2.(15)
更大的 κ\kappaκ 会减小减项,导致 G(kmin)G(k_{\min})G(kmin) 更大。
-
不可忽略斜率 (∣a∣∼1)(|a|\sim 1)(∣a∣∼1):完整的曲率公式 κ=b(1+a2)3/2\kappa = \frac{b}{(1 + a^2)^{3 / 2}}κ=(1+a2)3/2b 意味着 b=κ(1+a2)3/2b = \kappa (1 + a^2)^{3 / 2}b=κ(1+a2)3/2。代入 kmink_{\min}kmin:
kmin=−aκ(1+a2)3/2.(16)k_{\min} = -\frac{a}{\kappa(1 + a^2)^{3 / 2}}. \quad (16)kmin=−κ(1+a2)3/2a.(16)
即使 aaa 适中,增加 κ\kappaκ 仍然迫使 kmin→0k_{\min}\to 0kmin→0,并且 G(kmin)G(k_{\min})G(kmin) 随着 G(kmin)≈g(d^)−a22κ(1+a2)3/2G(k_{\min})\approx g(\hat{d}) - \frac{a^2}{2\kappa(1 + a^2)^{3 / 2}}G(kmin)≈g(d^)−2κ(1+a2)3/2a2 而增长。
几何解释
高曲率 (κ↑)(\kappa \uparrow)(κ↑):决策边界在输入 xxx 附近急剧弯曲。为了到达边界,对抗性扰动需要更小的步长 (kmin↓)(k_{\min}\downarrow)(kmin↓),但需要更大的幅度 (G(kmin)↑)(G(k_{\min})\uparrow)(G(kmin)↑),因为边界从原始类别"快速后退"。
低曲率 (κ↓)(\kappa \downarrow)(κ↓):边界平坦,允许更大的步长 (kmin↑)(k_{\min}\uparrow)(kmin↑),同时扰动更小 (G(kmin)↓)(G(k_{\min})\downarrow)(G(kmin)↓)。
高阶修正
包括三次项 (c≠0)(c\neq 0)(c=0),式 (12) 变为二次方程:
12ck2+bk+a=0.(17)\frac{1}{2} ck^2 +bk + a = 0. \quad (17)21ck2+bk+a=0.(17)
解为:
kmin=−b±b2−2acc.(18)k_{\min} = \frac{-b\pm\sqrt{b^2 - 2ac}}{c}. \quad (18)kmin=c−b±b2−2ac .(18)
对于小的 ccc,关于 c/b2c / b^2c/b2 的泰勒展开给出:
kmin≈−ab+a2c2b3+O(c2).(19)k_{\min}\approx -\frac{a}{b} +\frac{a^2c}{2b^3} +\mathcal{O}(c^2). \quad (19)kmin≈−ba+2b3a2c+O(c2).(19)
三次项引入了与 ccc 成正比的偏移量,但当 κ≫1\kappa \gg 1κ≫1 时,主导项 −a/b- a / b−a/b 仍然确保 kmin∝1/κk_{\min}\propto 1 / \kappakmin∝1/κ。
B.5. kmink_{\min}kmin 与 kbridgek_{\text{bridge}}kbridge 之间的线性关系
基于对决策边界曲率 κ\kappaκ 和最小点 kmink_{\min}kmin 的分析,我们现在研究 kmink_{\min}kmin 与参数 kbridgeidk_{\text{bridge}}^{\text{id}}kbridgeid 之间的关系。我们证明,在二次近似下,kmink_{\min}kmin 和 kbridgeidk_{\text{bridge}}^{\text{id}}kbridgeid 表现出近似线性关系,由曲率 κ\kappaκ 控制。
定义回顾
-
最小点 kmink_{\min}kmin:由式 (13),在二次近似 (c=0)(c = 0)(c=0) 下:
kmin≈−ab,k_{\min}\approx -\frac{a}{b},kmin≈−ba,
其中 a=∂G/∂k∣k=0a = \partial G / \partial k|{k = 0}a=∂G/∂k∣k=0,b=∂2G/∂k2∣k=0≈κb = \partial^2 G / \partial k^2 |{k = 0}\approx \kappab=∂2G/∂k2∣k=0≈κ(当 ∣a∣≪1|a|\ll 1∣a∣≪1 时)。
-
桥接权重参数 kbridgek_{\text{bridge}}kbridge,由式 (8):
kbridgeid≈−2ab.k_{\text{bridge}}^{\text{id}}\approx -\frac{2a}{b}.kbridgeid≈−b2a.
-
初始扰动(算法 4):约 10 次查询用于基线方向生成。
由式 (13) 和式 (8),我们得到:
kmin≈12⋅kbridgei.k_{\mathrm{min}}\approx \frac{1}{2}\cdot k_{\mathrm{bridge}}^{i}.kmin≈21⋅kbridgei.
这揭示了 kmink_{\mathrm{min}}kmin 与 kbridgeik_{\mathrm{bridge}}^{i}kbridgei 之间的线性比例关系:
kmin∝kbridgei.(20)k_{\mathrm{min}}\propto k_{\mathrm{bridge}}^{i}. \quad (20)kmin∝kbridgei.(20)
C. 二分搜索 kbridgek_{\mathrm{bridge}}kbridge 的复杂度
在算法 1 的第 6-17 行,我们执行二分搜索以识别桥接参数 kbridgeik_{\mathrm{bridge}}^{i}kbridgei,该参数使中间方向 dmidd_{\mathrm{mid}}dmid(第 9 行)与当前方向 did^{i}di 的决策边界对齐。虽然此过程需要查询预算,但与其战略效益相比,其计算成本很小。在标准的 10,000 次查询设置下(Chen & Gu,2020),TtBA 平均完成 57 次迭代,查询分配分布在四个部分:
- 初始扰动(算法 4):约 10 次查询用于基线方向生成。
- 法向量估计(第 5 行):每次迭代 ⌈30i⌉\lceil 30\sqrt{i}\rceil⌈30i ⌉ 次查询,用于边界几何分析,其中 iii 代表算法 1 中的第 iii 次优化迭代。
- 桥接参数二分搜索(第 6-17 行):在精度 δ=0.001\delta = 0.001δ=0.001 (≈2−10)(\approx 2^{-10})(≈2−10) 下,每次迭代约 10 次查询。
- 决策边界二分搜索(第 26 行):在容差 τ=0.0001\tau = 0.0001τ=0.0001 (≈2−14)(\approx 2^{-14})(≈2−14) 下,每次迭代约 14 次查询。
每次迭代的查询次数为:
qi=24+⌈30i⌉.(21)q_{i} = 24 + \lceil 30\sqrt{i}\rceil . \quad (21)qi=24+⌈30i ⌉.(21)
因此,经过 nnn 次二分搜索迭代的总查询次数受限于:
Qn=10+∑i=1nqi≤10+∫1n(24+30x)dx=10+[24x+20x3/2]1n=24n+20n3/2−34.(22)Q_{n} = 10 + \sum_{i = 1}^{n}q_{i}\leq 10 + \int_{1}^{n}(24 + 30\sqrt{x})dx = 10 + \left[24x + 20x^{3 / 2}\right]_{1}^{n} = 24n + 20n^{3 / 2} - 34. \quad (22)Qn=10+i=1∑nqi≤10+∫1n(24+30x )dx=10+[24x+20x3/2]1n=24n+20n3/2−34.(22)
解 24n+20n3/2−34=10424n + 20n^{3 / 2} - 34 = 10^{4}24n+20n3/2−34=104 得 n≈57n\approx 57n≈57 次迭代。用于 kbridgek_{\mathrm{bridge}}kbridge 二分搜索的 570 次查询总成本 (57×10)(57\times 10)(57×10) 仅占查询预算的 5.7%5.7\%5.7%。
D. 决策边界的二分搜索
在算法 2 中,二分搜索过程首先将非对抗区域中的低边界点 x~low←x\tilde{x}{\mathrm{low}}\leftarrow xx~low←x 和对抗区域中的高边界点 x~high←x+d\tilde{x}{\mathrm{high}}\leftarrow x + dx~high←x+d 初始化。在第 4-11 行,算法迭代检查中点 x~mid←(x~low+x~high)/2\tilde{x}{\mathrm{mid}}\leftarrow (\tilde{x}{\mathrm{low}} + \tilde{x}{\mathrm{high}}) / 2x~mid←(x~low+x~high)/2 是否位于对抗区域,并相应地更新 x~low\tilde{x}{\mathrm{low}}x~low 或 x~high\tilde{x}{\mathrm{high}}x~high,直到满足搜索容差。最后,在第 12 行,返回决策边界值 ∥x~high−x∥2\| \tilde{x}{\mathrm{high}} - x\|_{2}∥x~high−x∥2。
E. 法向量生成
我们遵循 CGBA(Reza 等人,2023)的法向量估计方法(算法 3)进行决策边界表征。给定第 1 行中的边界点 x~\tilde{x}x~,我们在第 3 行初始化一个法向量 N←0C×W×HN\leftarrow \mathbf{0}^{C\times W\times H}N←0C×W×H。对于每次查询 q∈[1,QN]q\in [1,Q_{N}]q∈[1,QN]:1) 在缩减空间 RC×W2×H2\mathbb{R}^{C\times \frac{W}{2}\times \frac{H}{2}}RC×2W×2H 中生成低维高斯噪声 dtemp∼N(0,I)d_{\mathrm{temp}}\sim \mathcal{N}(0,I)dtemp∼N(0,I)(第 5 行);2) 通过二维逆离散余弦变换上采样到图像空间 dGaussian←IDCT2(dtemp)d_{\mathrm{Gaussian}}\leftarrow \mathrm{IDCT}{2}(d{\mathrm{temp}})dGaussian←IDCT2(dtemp)(第 6 行),其中 IDCT2(⋅)\mathrm{IDCT}{2}(\cdot)IDCT2(⋅) 指二维逆离散余弦变换,它从其频域表示重建空间域数据;3) 通过用 rN⋅d^Gaussianr{N}\cdot \hat{d}{\mathrm{Gaussian}}rN⋅d^Gaussian 扰动 x~\tilde{x}x~ 来测试对抗方向(第 7 行);4) 根据指示函数 I(x~+rNdGaussian)I(\tilde{x} +r{N}d_{\mathrm{Gaussian}})I(x~+rNdGaussian) 的值,使用 N←N±d^GaussianN\leftarrow N\pm \hat{d}{\mathrm{Gaussian}}N←N±d^Gaussian 累积方向(第 8-10 行)。在 QNQ{N}QN 次查询后返回最终归一化的法向量 N~\tilde{N}N~(第 12 行)。


F. 初始扰动生成
我们采用 CGBA 框架(Reza 等人,2023)来计算初始扰动方向(算法 4)。对于目标攻击(第 3-4 行),方向源自 dinit=xtarget−xd_{\mathrm{init}} = x_{\mathrm{target}} - xdinit=xtarget−x。在非目标场景中(第 6-19 行),迭代采样高斯噪声 dGaussian∼N(0,I)d_{\mathrm{Gaussian}} \sim \mathcal{N}(0, I)dGaussian∼N(0,I)(第 7 行),按 0.02q0.02q0.02q 缩放(第 8 行,其中 qqq 是查询索引,⋅^\hat{\cdot}⋅^ 表示归一化),如果 I(x+dinit)=1I(x + d_{\mathrm{init}}) = 1I(x+dinit)=1 则提前终止(第 9-11 行)。如果 Q/10Q / 10Q/10 次查询失败(第 13 行),则尝试扰动 1C×W×H−x\mathbf{1}^{\mathrm{C} \times \mathrm{W} \times \mathrm{H}} - x1C×W×H−x(第 14 行)或 0C×W×H−x\mathbf{0}^{\mathrm{C} \times \mathrm{W} \times \mathrm{H}} - x0C×W×H−x。然后通过 dinit←g(dinit)⋅d^initd_{\mathrm{init}} \leftarrow g(d_{\mathrm{init}}) \cdot \hat{d}_{\mathrm{init}}dinit←g(dinit)⋅d^init(第 20 行)校准方向,其中 g(⋅)g(\cdot)g(⋅) 通过二分搜索实现边界投影(Reza 等人,2023)。
G. 参数敏感性分析
我们的 TtBA 算法总结在算法 1 中,引入了几个参数,包括局部最优阈值 kˇ=0.1\check{k} = 0.1kˇ=0.1 和 k^=0.2\hat{k} = 0.2k^=0.2,以及桥接系数 b^=0.9\hat{b} = 0.9b^=0.9 和 bˇ=2/3\check{b} = 2 / 3bˇ=2/3。相应的参数设置是基于在 ImageNet-VGG19 模型上进行的初步实验确定的。在本附录中,我们展示了 TtBA 的性能对这些参数设置不敏感。
为了评估不同参数设置的影响,我们进行了敏感性分析。具体来说,我们在一系列值上变化桥接系数 b^\hat{b}b^ 和 bˇ\check{b}bˇ(表 2)以及局部最优阈值 k^\hat{k}k^ 和 kˇ\check{k}kˇ(表 3)。对于每种设置,使用中位 ℓ2\ell_2ℓ2 - 查询曲线下的面积(AUC)来评估性能。AUC 使用公式 AUC=∑i=1nℓ2(Qi)\mathrm{AUC} = \sum_{i = 1}^{n} \ell_{2}(Q_{i})AUC=∑i=1nℓ2(Qi) 计算,其中 ℓ2(Qi)\ell_{2}(Q_{i})ℓ2(Qi) 表示在 QiQ_{i}Qi 次查询后获得的中位 ℓ2\ell_2ℓ2 范数,n=10,000n = 10,000n=10,000 是总查询预算。在对抗攻击中,较低的 AUC 表示扰动较小,攻击效果更好。
我们在 MNIST-CNN、CIFAR10-CNN、CIFAR100-ViT 和 ImageNet-VGG 模型上进行了非目标

和目标攻击实验。这些模型已在第 5.1 小节中介绍。结果呈现在表 2 和表 3 中,最佳值以粗体突出显示。
表 2. TtBA 在不同参数 (b^,bˇ)(\hat{b},\check{b})(b^,bˇ) 下的 AUC

我们的实验结果清楚地表明,参数设置 (b^=0.9,bˇ=2/3)(\hat{b} = 0.9,\check{b} = 2/3)(b^=0.9,bˇ=2/3) 和 (k^=0.2,kˇ=0.1)(\hat{k} = 0.2, \check{k} = 0.1)(k^=0.2,kˇ=0.1) 可以在八个实验中的五个中实现最佳性能。即使它们不是表现最佳的配置,它们的结果也非常接近最佳值。
此外,如表 3 所示,参数设置 b^=2/3\hat{b} = 2/3b^=2/3 和 bˇ=2/3\check{b} = 2/3bˇ=2/3 对应于没有局部最优逃离机制的 TtBA。在此设置下,TtBA 在算法 1 的第 18-24 行中将权重参数更新为 ki+1=2/3kbridgeik^{i+1} = 2/3k^{i}_{\mathrm{bridge}}ki+1=2/3kbridgei,完全忽略了决策边界的曲率。我们的实验表明,与算法 1 中设置 b^=0.9\hat{b} = 0.9b^=0.9 和 bˇ=2/3\check{b} = 2/3bˇ=2/3 相比,这种配置的性能始终较低。这一结果凸显了使用我们提出的机制来逃离局部最优的重要性。
我们还对鲁棒模型进行了额外的敏感性分析。如表 4 所示,TtBA 在调整超参数后可以有效地攻击鲁棒模型。具体来说,我们通过将 bˇ=2/3\check{b} = 2/3bˇ=2/3 的默认值在 {0.55,0.575,0.60,0.625,0.65,2/3,0.70}\{0.55, 0.575, 0.60, 0.625, 0.65, 2/3, 0.70\}{0.55,0.575,0.60,0.625,0.65,2/3,0.70} 中变化,来修改 k=bˇ⋅kbridgek = \check{b} \cdot k_{\mathrm{bridge}}k=bˇ⋅kbridge 的设置,并评估了两个 WRN 模型在 CIFAR-100 和 TinyImageNet 数据集上的 AUC。结果表明,对于鲁棒模型,设置 bˇ=0.625\check{b} = 0.625bˇ=0.625 在 4 个实验中的 3 个中取得了最佳性能,明显优于 bˇ=2/3\check{b} = 2/3bˇ=2/3 的设置。这种差异可能
表 3. TtBA 在不同参数 (k^,kˇ)(\hat{k},\check{k})(k^,kˇ) 下的 AUC

表 4. TtBA 针对鲁棒训练模型在不同参数 (b^,bˇ)(\hat{b},\check{b})(b^,bˇ) 下的 AUC

是因为鲁棒模型能够有效地隐藏梯度信息,导致法向量估计变得不太可靠。因此,为法向量分配较小的权重可以提高扰动优化的有效性。
H. 附录实验:攻击成功率
在相同扰动预算下查询复杂度的降低情况如表 5 所示。我们在 ImageNet 数据集上评估了 TtBA 在四个模型上的性能:VGG-19、ResNet-50、Inception-V3 和 ViT-B32。遵循 CGBA 的设置,我们将查询预算设置为 10,000,最大 ℓ2\ell_2ℓ2 扰动强度设置为 ϵ=2.5\epsilon = 2.5ϵ=2.5。然后我们从 ImageNet 中随机选择 500 张图像,比较攻击成功率(ASR)和成功攻击所需的平均(中位)查询次数。结果如下所示。
表 5. 在 ImageNet 数据集上,查询预算为 10,000 且最大 ℓ2\ell_2ℓ2 扰动强度 ϵ=2.5\epsilon = 2.5ϵ=2.5 时,基于决策的非目标攻击比较

结果显示,TtBA 在所有四个模型上都取得了最高的攻击成功率(ASR)。关于查询次数,HSJA 的平均(中位)查询次数最低,但这是因为其 ASR 远低于 CGBA 和 TtBA。众所周知,一些图像包含鲁棒特征,需要更多查询才能成功攻击。TtBA 具有显著更高的 ASR,能够成功攻击这些鲁棒图像,因此平均需要更多查询。同时,在相似的 ASR 下,TtBA 在平均(中位)查询次数上优于 CGBA。在 ResNet-50 上,TtBA 的 ASR(61.8%)也显著高于 CGBA(52.0%)。