CVPR2024 | 重新思考针对深度神经网络的数据可用性攻击

Re-thinking Data Availability Attacks Against Deep Neural Networks

摘要-Abstract
引言-Introduction
[相关工作-Related Work](#相关工作-Related Work)
方法-Methodology
- [基于鲁棒模型方法的局限性-Limitations of Robust Model-based Methods](#基于鲁棒模型方法的局限性-Limitations of Robust Model-based Methods)
- - REM方法的问题
  - EntF方法的问题
- [两阶段优化过程-Two-Stage Optimization Procedure](#两阶段优化过程-Two-Stage Optimization Procedure)
- [平均随机性约束-Average Randomness Constraint](#平均随机性约束-Average Randomness Constraint)
实验-Experiments
[结论和讨论-Conclusion and Discussion](#结论和讨论-Conclusion and Discussion)
- 研究结论总结
- 方法局限性及未来工作

本文"Re-thinking Data Availability Attacks Against Deep Neural Networks" 由 Bin Fang、Bo Li 等人撰写。随着人工智能发展，数据滥用问题凸显，可用性攻击旨在保护数据，但现有方法存在局限。本文提出新的优化范式生成鲁棒不可学习噪声，经实验验证其有效性与泛化性。

摘要-Abstract

The unauthorized use of personal data for commercial purposes and the covert acquisition of private data for training machine learning models continue to raise concerns. To address these issues, researchers have proposed availability attacks that aim to render data unexploitable. However, many availability attack methods can be easily disrupted by adversarial training. Although some robust methods can resist adversarial training, their protective effects are limited. In this paper, we re-examine the existing availability attack methods and propose a novel two-stage min-max-min optimization paradigm to generate robust unlearnable noise. The inner min stage is utilized to generate unlearnable noise, while the outer min-max stage simulates the training process of the poisoned model. Additionally, we formulate the attack effects and use it to constrain the optimization objective. Comprehensive experiments have revealed that the noise generated by our method can lead to a decline in test accuracy for adversarially trained poisoned models by up to approximately 30%, in comparison to SOTA methods.

将个人数据未经授权用于商业目的以及秘密获取私人数据用于训练机器学习模型的行为持续引发担忧。为了解决这些问题，研究人员提出了可用性攻击，旨在使数据无法被利用。然而，许多可用性攻击方法很容易被对抗训练破坏。尽管一些鲁棒方法能够抵抗对抗训练，但其保护效果有限。在本文中，我们重新审视了现有的可用性攻击方法，并提出了一种新颖的两阶段最小 - 最大 - 最小优化范式来生成鲁棒的不可学习噪声。内部最小阶段用于生成不可学习噪声，而外部最小 - 最大阶段则模拟中毒模型的训练过程。此外，我们明确了攻击效果并利用它来约束优化目标。综合实验表明，与最先进的（SOTA）方法相比，我们的方法生成的噪声可使经过对抗训练的中毒模型的测试准确率下降多达约30%.

引言-Introduction

该部分主要介绍了人工智能发展中数据滥用问题及相关研究背景，具体内容如下：

人工智能发展与数据问题
- 人工智能在过去十年取得显著进展，深度学习成果依赖大量高质量数据，如大型基础模型和生成模型的突破。
- 然而，数据的未经授权收集和使用问题严重，有证据表明技术公司存在此类行为。
可用性攻击概念及现有方法局限
- 可用性攻击旨在通过生成不可学习噪声保护数据，使基于中毒数据训练的模型在干净测试示例上性能类似随机猜测。
- 现有方法如EM、LSP等虽能损害模型性能，但产生的不可学习噪声易被对抗训练中和，保护效果受影响。
- REM和EntF等鲁棒方法虽能抵抗对抗训练，但理论基础不确定且保护效果有限。
本文贡献
- 概述并评估先前可用性攻击方法的局限性。
- 提出可靠的（min-max-min）优化目标，减轻对抗训练的破坏影响，提供强大的数据保护。
- 首次提出平均随机性约束来规范不可学习示例的预期效果，并用于调整优化目标，显著提升性能。
- 为未来研究奠定基础，便于集成更多约束，推动进一步发展。

该部分主要介绍了与数据可用性攻击相关的两类工作，包括中毒攻击和可用性攻击，具体内容如下：

中毒攻击
- 旨在通过向训练数据集注入噪声破坏模型训练过程，导致测试阶段特定或未见样本出现显著错误。
- 后门攻击是常见形式，通过在训练样本中注入触发器，使包含触发器的图像在测试时被误分类，但通常不影响干净样本的分类。
可用性攻击
- 目的是通过生成不可察觉的不可学习噪声保护数据免受未经授权利用，使基于中毒数据训练的模型在干净测试数据上表现类似随机猜测。
- 无模型攻击：如LSP、AR、CUDA和OPS等，在像素级生成不可学习噪声，与数据特征无关，因此易受基于特征的防御方法（如对抗训练）影响。
- 基于模型攻击
  - 使用代理模型生成不可学习噪声，根据代理模型是否采用对抗训练技术分为两类。
  - 非鲁棒模型方法（如TAP、NTGA和EM）训练代理模型学习非鲁棒特征，生成的噪声仅针对标准训练的中毒模型，对抗训练会破坏其保护效果。
  - 鲁棒模型方法（如REM和EntF）训练代理模型学习鲁棒特征，虽能抵抗对抗训练，但保护效果仍有限。

方法-Methodology

表1. 本文使用的符号列表

基于鲁棒模型方法的局限性-Limitations of Robust Model-based Methods

该部分主要聚焦于对现有鲁棒模型方法（如REM和EntF）在可用性攻击中局限性的深入剖析，具体内容如下：

REM方法的问题

优化目标与非鲁棒性
- REM为应对对抗训练对不可学习示例保护效果的破坏，提出了 m i n − ( m i n − m a x ) min-(min-max) min−(min−max) 优化程序，其训练目标为 m i n θ 1 n ∑ i = 1 n m i n ∥ δ i u ∥ ≤ ρ u m a x ∥ δ i a ∥ ≤ ρ a ℓ ( f θ ′ ( x i + δ i u + δ i a ) , y i ) min {\theta} \frac{1}{n} \sum{i=1}^{n} min {\parallel \delta{i}^{u}\parallel \leq \rho_{u}} max {\parallel \delta{i}^{a}\parallel \leq \rho_{a}} \ell\left(f_{\theta}'\left(x_{i}+\delta_{i}^{u}+\delta_{i}^{a}\right), y_{i}\right) minθn1i=1∑nmin∥δiu∥≤ρumax∥δia∥≤ρaℓ(fθ′(xi+δiu+δia),yi) 此优化目标可分为两步，第一步的内 m i n − m a x min-max min−max 用于生成对抗样本和相应的不可学习噪声，第二步的外 m i n θ min _{\theta} minθ 用于更新代理模型。
- 然而，由于 ρ a < ρ u \rho_{a}<\rho_{u} ρa<ρu，更新代理模型的输入本质上与EM相同，这导致REM的代理模型本质上与EM类似，均呈现非鲁棒特征。尽管如此，经过对抗训练的中毒模型变得鲁棒，即便训练数据包含不可学习实例，这表明REM方法在生成有效保护噪声方面存在不足。
与本文方法优化目标的差异
- 作者认为应采用鲁棒代理模型来生成鲁棒的不可学习噪声，进而提出了 m i n − m a x − m i n min-max-min min−max−min 优化目标，这与REM的优化目标有显著区别。具体差异在表2 中清晰展示，下部分将详细阐述作者提出的优化目标。

表2. REM和我们的方法的主要不同

EntF方法的问题

EntF利用预训练的鲁棒特征提取器，旨在通过聚合相似特征来挑战对抗训练的前提。然而，根据先前研究，仅通过特征约束生成的噪声难以在分类任务中实现有效的保护效果。这意味着EntF方法在实际应用中，虽然试图通过特征层面的操作来抵御对抗训练，但在保护数据在分类任务中的有效性方面存在局限性，无法充分确保模型不学习到有用信息，从而使得其在可用性攻击中的数据保护能力大打折扣。

两阶段优化过程-Two-Stage Optimization Procedure

该部分主要介绍了针对现有问题提出的两阶段优化过程，以训练鲁棒代理模型生成更有效的不可学习噪声，具体内容如下：

分析与思路

基于对现有鲁棒模型方法局限性的讨论，作者认为训练鲁棒代理模型对于生成能有效抵御对抗训练的不可学习噪声至关重要。因此，提出一种两阶段优化过程来训练这样的鲁棒代理模型。

两阶段优化过程详述

第一阶段（内部最小化）
- 此阶段的目标是为经过对抗训练的噪声生成器（代理模型 f θ ′ f_{\theta}' fθ′）获取不可学习噪声。通过求解 δ i u = m i n ∥ δ i u ∥ ≤ ρ u ℓ ( f θ ′ ( x i + δ i u ) , y i ) \delta_{i}^{u}=min {\parallel \delta{i}^{u}\parallel \leq \rho_{u}} \ell\left(f_{\theta}'\left(x_{i}+\delta_{i}^{u}\right), y_{i}\right) δiu=min∥δiu∥≤ρuℓ(fθ′(xi+δiu),yi)，利用对抗训练能够提取鲁棒特征的特性，使得由鲁棒模型生成的不可学习噪声自然具备抵抗对抗训练的能力。
第二阶段（外部 min-max 优化）
- 该阶段相当于进行对抗训练，其输入为添加了鲁棒不可学习噪声的图像，即 m i n θ 1 n ∑ i = 1 n m a x ∥ δ i a ∥ ≤ ρ a ℓ ( f θ ′ ( x i + δ i u + δ i a ) , y i ) min {\theta} \frac{1}{n} \sum{i=1}^{n} max {\parallel \delta{i}^{a}\parallel \leq \rho_{a}} \ell\left(f_{\theta}'\left(x_{i}+\delta_{i}^{u}+\delta_{i}^{a}\right), y_{i}\right) minθn1∑i=1nmax∥δia∥≤ρaℓ(fθ′(xi+δiu+δia),yi)，其中期望 ρ a < ρ u \rho_{a}<\rho_{u} ρa<ρu（如REM中所述，当 ρ a ≥ ρ u \rho_{a} ≥\rho_{u} ρa≥ρu 时，生成的不可学习噪声 δ u \delta_{u} δu 无法抑制任何可学习知识）。此过程模拟了使用对抗训练的中毒模型的训练过程，与第一阶段相互补充，使得内部生成的不可学习噪声能产生更好的保护效果。
优化过程算法示例（Algorithm I）
- 算法首先初始化源模型参数 θ \theta θ，然后在每次迭代中：
  - 从训练数据集 D D D 中采样一个小批量 ( x , y ) (x, y) (x,y)。
  - 初始化 δ u \delta_{u} δu，通过多次迭代（ k k k 从1到 K u K_{u} Ku）计算梯度 g k g_{k} gk 并更新 δ u \delta_{u} δu，实现第一阶段内部最小化过程（生成不可学习噪声）。
  - 接着再次通过多次迭代（ k k k 从1到 K a K_{a} Ka）计算梯度 g k g_{k} gk 更新 δ a \delta_{a} δa，同时计算关于 θ \theta θ 的梯度 g k g_{k} gk，并根据学习率 η \eta η 更新模型参数 θ \theta θ，完成第二阶段外部 m i n − m a x min-max min−max 优化过程（模拟对抗训练）。
- 最终返回训练好的噪声生成器 f θ ′ f_{\theta}' fθ′。

优化目标的调整需求

然而，上述第二阶段的优化目标未体现对干净样本预测性能的约束。因此，需要添加约束条件，以确保模型在训练过程中不会过度学习，从而更好地实现对数据的保护，为后续部分提出 平均随机性约束 埋下伏笔。这一优化过程为生成鲁棒的不可学习噪声提供了一种有效的途径，有望克服现有方法在面对对抗训练时保护效果受限的问题。

平均随机性约束-Average Randomness Constraint

该部分主要提出了 平均随机性约束（Average Randomness Constraint），用于规范代理模型在干净样本上的行为，并调整优化目标，增强不可学习噪声的保护效果，具体内容如下：

背景与问题引出

EM提出在不可学习示例上训练的模型应在干净样本上表现出随机猜测行为，但多数先前研究未对干净样本性能进行约束。例如，在噪声发生器训练过程中，干净示例的测试准确率表明REM产生的噪声仍使代理模型学习到大量信息（如图1 所示）。

图1. 代理模型训练阶段干净示例的测试准确率.

平均预测随机性定义

对于包含 N N N 个样本的数据集 D D D，其中 x i x_{i} xi 为第 i i i 个样本， y i y_{i} yi 为对应标签，分类器 C : X → Y C: X \to Y C:X→Y。定义 P k P_{k} Pk 为模型对真实标签为 k k k 的样本的预测概率向量，其第 j j j 个元素 P k j ≜ ∑ i = 1 N I { C ( x i ) = j } ⋅ I { y i = k } ∑ i = 1 N I { y i = k } P_{k}^{j} \triangleq \frac{\sum_{i=1}^{N} \mathbb{I}\left\{C\left(x_{i}\right)=j\right\} \cdot \mathbb{I}\left\{y_{i}=k\right\}}{\sum_{i=1}^{N} \mathbb{I}\left\{y_{i}=k\right\}} Pkj≜∑i=1NI{yi=k}∑i=1NI{C(xi)=j}⋅I{yi=k}
平均预测随机性度量 R p R_{p} Rp 定义为 R p ≜ 1 N ∑ k = 1 K ∑ i = 1 N I { y i = k } ⋅ L ( P k ) R_{p} \triangleq \frac{1}{N} \sum_{k=1}^{K} \sum_{i=1}^{N} \mathbb{I}\left\{y_{i}=k\right\} \cdot \mathcal{L}\left(P_{k}\right) Rp≜N1∑k=1K∑i=1NI{yi=k}⋅L(Pk)，用于衡量当前预测分布与均匀分布的距离， R p R_{p} Rp 值越小，分布越分散，但 R p R_{p} Rp 不可微，无法直接优化。

在论文中， I \mathbb{I} I 表示指示函数（Indicator Function）。

具体含义: 对于一个事件或条件 A A A，指示函数 I ( A ) \mathbb{I}(A) I(A) 定义为：如果 A A A 成立，则 I ( A ) = 1 \mathbb{I}(A)=1 I(A)=1；如果 A A A 不成立，则 I ( A ) = 0 \mathbb{I}(A)=0 I(A)=0。

可微平均随机性定义

对于同样的数据集 D D D 和参数化机器学习模型 f θ f_{\theta} fθ，定义分类器 f θ ( ⋅ ) f_{\theta}(\cdot) fθ(⋅) 预测的平均样本随机性为 R s ≜ 1 N ∑ i = 1 N L ( f ( x i ) ) R_{s} \triangleq \frac{1}{N} \sum_{i=1}^{N} \mathcal{L}\left(f\left(x_{i}\right)\right) Rs≜N1∑i=1NL(f(xi))，其可微形式代表预测概率向量的平均离散度。
定理1表明 0 ≤ 1 K ∑ j = 1 K ( f θ ( x ) [ j ] − 1 K ) 2 < 4 K 0 \leq \frac{1}{K} \sum_{j=1}^{K}\left(f_{\theta}(x)[j]-\frac{1}{K}\right)^{2}<\frac{4}{K} 0≤K1∑j=1K(fθ(x)[j]−K1)2<K4，此定理为后续选择距离函数提供了依据。

距离函数选择分析

先前研究表明基于距离的损失函数训练的模型性能更佳，交叉熵和KL散度常用于计算分布距离，但并非距离函数，而MSE是距离函数。
证明了CE和KL在某种程度上等价，且在多数实验设置下，MSE小于CE损失，两者在相同条件下达到最小值，即优化MSE等同于优化CE。
KL损失在预测概率极小时会导致梯度爆炸，使训练复杂，而MSE相对平滑，有明确上下界（如定理1所示），更利于模型训练。因此，选择MSE作为距离函数评估可微平均随机性（DAR），较小的DAR意味着 f θ f_{\theta} fθ 在干净样本上输出概率更随机，模型学习知识更少。

平均随机性约束的应用

最终将样本级别的DAR（即平均随机性约束）定义为 1 K ∑ k = 1 K ( f θ ′ ( x i ) [ k ] − 1 K ) 2 \frac{1}{K} \sum_{k=1}^{K}\left(f_{\theta}'\left(x_{i}\right)[k]-\frac{1}{K}\right)^{2} K1∑k=1K(fθ′(xi)[k]−K1)2，并用于修改第二阶段优化目标。
修正后的最终优化目标为 m i n θ 1 n ∑ i = 1 n [ m a x ∥ δ i a ∥ ≤ ρ a ℓ ( f θ ′ ( x i + δ i u + δ i a ) , y i ) + 1 K ∑ k = 1 K ( f θ ′ ( x i ) [ k ] − 1 K ) 2 ] min {\theta} \frac{1}{n} \sum{i=1}^{n}[ max {\parallel \delta{i}^{a}\parallel \leq \rho_{a}} \ell\left(f_{\theta}'\left(x_{i}+\delta_{i}^{u}+\delta_{i}^{a}\right), y_{i}\right)+\frac{1}{K} \sum_{k=1}^{K}\left(f_{\theta}'\left(x_{i}\right)[k]-\frac{1}{K}\right)^{2}] minθn1i=1∑n[max∥δia∥≤ρaℓ(fθ′(xi+δiu+δia),yi)+K1k=1∑K(fθ′(xi)[k]−K1)2] 通过添加此约束项，模型在训练时将学习更少知识，增强了不可学习噪声的保护效果，图1也展示了此约束项的有效性。这一约束条件的提出为优化代理模型提供了新的思路和方法，进一步完善了生成鲁棒不可学习噪声的理论和实践框架。

实验-Experiments

该部分通过多组实验，从不同角度全面评估了所提方法的有效性和泛化能力，具体内容如下：

实验设置

数据集：使用CIFAR - 10、CIFAR - 100和ImageNet子集，在各实验中应用数据增强技术，以验证方法在不同类别和分辨率图像上的有效性。
代理模型 ：遵循EM和REM，采用ResNet - 18作为代理模型训练噪声生成器，设置 $L_{\\infty}-$ 有界噪声 ∥ δ u ∥ ∞ ≤ ρ u \left\|\delta_{u}\right\|{\infty} ≤\rho{u} ∥δu∥∞≤ρu（ ρ u = 8 / 255 \rho_{u}=8/255 ρu=8/255）和 ∥ δ a ∥ ∞ ≤ ρ a \left\|\delta_{a}\right\|{\infty} ≤\rho{a} ∥δa∥∞≤ρa（ ρ a = 4 / 255 \rho_{a}=4/255 ρa=4/255），还使用VGG - 16、ResNet - 50和DenseNet - 121测试方法的泛化能力。
对比方法：与TAP、NTGA、EM、REM和EntF等可用性攻击方法进行对比。
噪声测试 ：在标准训练和对抗训练中测试生成的噪声，关注 L ∞ L_{\infty} L∞ 有界噪声，对不同模型（包括VGG - 16、ResNet - 18、ResNet - 50、DenseNet - 121和wide ResNet - 34 - 10）进行对抗训练，通过测量在不可学习示例上训练的模型的测试准确性评估不可学习噪声的数据保护能力。

实验结果

标准和对抗训练有效性
- 引入不可学习噪声生成不可学习数据集，用不同对抗训练扰动半径训练模型。结果表明，对抗训练扰动半径增加会降低保护效果，而所提方法在不同对抗扰动半径下均优于其他方法，在标准训练中也表现出色，能有效保护数据，且在不同数据集上均有显著保护效果。
  
  表3. 用不同扰动半径进行对抗训练的模型的测试准确率（%）。训练数据，即不可学习示例，是由不同的可用性攻击生成的
不同中毒模型架构的可迁移性
- 用ResNet - 18生成的不可学习噪声对不同模型（VGG - 16、ResNet - 18、ResNet - 50、DenseNet - 121和wide ResNet - 34 - 10）进行对抗训练（扰动半径为4/255），所提方法在CIFAR - 10和CIFAR - 100数据集上的测试准确率表明其能有效保护数据免受不同对抗训练模型影响，性能优于其他方法。
  
  表4. 在不可学习的CIFAR - 10和CIFAR - 100数据集上经对抗训练的不同模型的测试准确率（%）
不同代理模型的可迁移性
- 使用不同架构的代理模型（VGG - 16、ResNet - 18、ResNet - 50和DenseNet - 121）生成不可学习噪声，对不同模型进行测试。结果显示，所提方法在不同数据集上始终优于其他可用性攻击方法，平均准确率在CIFAR - 10上降低约7% - 25%，在CIFAR - 100上降低约4% - 10%，表明其泛化性良好。
  
  表5. 由不同噪声生成器生成的不可学习的CIFAR - 10和CIFAR - 100数据集上经过对抗训练的不同模型的测试准确率（%）
不同保护百分比的保护效果
- 在部分数据保护场景中，随机选择训练数据子集添加不可学习噪声，用ResNet - 18进行对抗训练。结果表明，随着保护数据比例降低，模型性能提升，但所提方法始终提供更好的数据保护，说明其生成的不可学习噪声更有效，能隐藏更多信息。当保护比例较低时，所有方法保护效果不明显，可能与数据集组成有关，但所提方法在不可学习示例比例增加时性能提升明显。
  
  表6. 在不同保护百分比下CIFAR - 10和CIFAR - 100的测试准确率（%）

实验总结

通过一系列实验，全面验证了所提方法在数据保护方面的有效性和泛化能力，在不同实验设置和数据集上均表现出优于其他方法的性能，为解决数据可用性攻击问题提供了有力支持，同时也为进一步研究提供了实验依据和方向。

结论和讨论-Conclusion and Discussion

该部分主要对论文的研究工作进行了总结，并讨论了当前方法的局限性以及未来的研究方向，具体内容如下：

研究结论总结

系统回顾了现有旨在通过生成不可学习噪声保护数据免受未经授权使用的可用性攻击方法，并深入分析了其局限性。
提出了一种新颖的两阶段（min-max-min）优化过程来训练鲁棒代理模型，从而生成鲁棒的不可学习噪声。第一阶段利用鲁棒代理模型为干净示例生成不可学习噪声，第二阶段通过模拟中毒模型的对抗训练过程来增强其鲁棒性，且以不可学习示例作为输入。
首次引入了平均随机性约束（Differentiable Average Randomness, DAR），用于正式定义不可学习示例的保护效果，并在代理模型训练阶段对优化目标进行约束。
通过广泛的实验验证了所提出方法在不同数据集、对抗训练设置、中毒模型架构和代理模型等情况下的卓越保护性能，为未来的数据可用性攻击研究奠定了坚实基础。

方法局限性及未来工作

计算成本问题
- 当前方法在应用于大规模数据集（如ImageNet）时，由于需要纳入对抗训练过程来生成鲁棒不可学习示例，导致计算成本大幅增加。
- 未来计划探索高效的鲁棒方法以加速该方法的执行，从而提高其在大规模数据场景下的实用性。
部分数据保护优化问题
- 当前方法在仅对部分数据进行保护的情况下，其抗学习效果明显弱于对整个数据集添加保护噪声的场景。
- 未来将致力于研究如何在仅保护部分数据时有效地保障数据隐私，例如考虑将误导性错误的高级语义信息融入不可学习示例中，确保模型获取的任何知识都是错误信息，以此填补这一研究空白，进一步提升方法在实际应用中的有效性。