[论文学习]修正机器遗忘中的隐私与效能测量：基于新推论攻击视角的分析框架（RULI）

Rectifying Privacy and Efficacy Measurements in Machine Unlearning: A New Inference Attack Perspective (N. Naderloui et al., USENIX Security 2025)

机器遗忘（Machine Unlearning）旨在高效从已训练模型中移除特定数据（忘记集 ( D_f )），以符合隐私法规（如 GDPR 的「被遗忘权」）、修正有害内容或适应数据变化。

精确遗忘（从头重训排除 ( D_f )）虽理论完美，但对大模型而言极不切实际。因此，inexact unlearning 方法（如 Scrub、GA/GA+、NegGrad+、ℓ1-Sparse 等）成为主流，透过修改模型权重或蒸馏等方式来近似移除影响。

平均情况（Average-case）主导：多数工作使用整体数据集的聚合指标（如平均准确率或 population MIA），忽略个别样本的 memorization 差异。许多样本本就「安全」（不易被 MIA 攻击），导致严重低估高风险样本的隐私泄露风险。
随机样本目标 ：评估时多使用随机或单类别样本，未针对易受攻击的 vulnerable samples（高 memorization 样本），无法揭示真实漏洞。
效能（Efficacy）测量不足 ：常仅比对 unlearned model ( \theta_U ) 与 retrained model ( \theta_R ) 的整体准确率（Accuracy on ( D_r )、( D_f )、test set），但这无法捕捉 per-sample 行为差异，也无法有效区分「隐私」（是否泄露忘记样本存在）与「效能」（是否真正近似重训移除影响）。

作者受 Hayes et al. 等工作启发，提出需要更强的 sample-level 攻击 来验证 inexact 方法。RULI 框架正是为了解决上述问题，提供基于 game-based 的严谨评估基础，同时衡量隐私泄露与效能，推动更可靠的 unlearning 设计。

双目标攻击 ：基于 Likelihood Ratio Test（LRT） 和 Kernel Density Estimation（KDE），利用 shadow models 构建多种分布（In/Out/Unlearned/Held-out 等）。
Privacy（Game 2）：比较 unlearned model 输出与 held-out 分布，判断目标样本是否曾被训练并遗忘。
Efficacy（Game 3）：引入 Test model ( \theta_T )（依样本状态切换 unlearned/retrained 输出），通过比较评估是否真正近似重训。

使用 Canary injection 技术，将 vulnerable samples（先用 LiRA 识别的高 memorization 样本）注入忘记集，模拟真实高风险情境。
支持多种任务：图像分类（CIFAR-10/100、TinyImageNet + ViT）与文本生成（WikiText-103 + GPT-2）。

隐私泄露 ：RULI 在 vulnerable + protected 混合设定下大幅优于平均情况攻击与 U-LiRA。例如 GA+ 下 TPR@1% FPR 可达 20%+，而平均情况攻击常低估数倍至十倍。ℓ1-Sparse 相对稳健，但代价是整体 memorization 降低。
效能：多数 inexact 方法与重训模型存在显著可区分性（Attack ACC 常 >60--70%），证明难以完美近似。unlearning 还会意外损害剩余 vulnerable samples 的 memorization（准确率大幅下降）。
通用性 ：在 ViT + TinyImageNet 以及语言模型上同样有效，文本 7-gram unlearning TPR@1% FPR 高达 54%。
效率：Shadow model 训练成本合理（相较 U-LiRA 更低），支持并行处理多目标样本。

隐私 vs. 效能区分：两者密切相关但本质不同。强隐私保护不保证高效能，反之亦然。仅靠平均准确率比对无法捕捉 per-sample 的细微差异，这是现有评估的重大盲点。
Vulnerable Samples 的重要性 ：unlearning 在 batch 平均梯度更新下，对高 memorization 样本的效果较差；混合 protected samples 时更难完全移除。Canary injection 是有效的压力测试方式。
方法特征：
- Gradient-based 方法（如 GA+、NegGrad+）在效能上较弱，但隐私泄露明显。
- Sparse 方法较稳健，但会牺牲模型容量与剩余数据的 memorization。
对领域的影响 ：强调 unlearning 评估需从 average-case 转向 targeted per-sample 评估，类似现代 MIA 研究趋势（LiRA 等）。这有助于未来设计更 robust 的算法，也提醒实际部署时需采取更保守的隐私保证。
边缘考量与限制：
- 攻击假设 black-box 存取最终 unlearned model（符合现实情境），attacker 可知训练/遗忘算法并构建 shadow models。
- 对 certified unlearning 或大规模 LM 的延伸仍有研究空间。
- 潜在限制包括计算成本（虽已优于部分 baseline）与特定超参数调校的依赖性。

透过严谨的 game-based 框架 与新型 inference attack（RULI），成功修正了机器遗忘评估中的核心缺陷，揭示现有 SOTA 方法在隐私与效能上的显著不足。实验充分证明 inexact unlearning 难以同时达成高效移除与强隐私保护，尤其在高风险样本上。

RULI 提供了一个可扩展、细粒度的评估工具，为 unlearning 研究奠定更可靠的基准，推动从「声称移除」走向「可验证移除」。

未来方向包括：

这不仅是重要的技术进展，更是对 AI 隐私合规与可信部署的实务贡献，强烈推荐研究者与工程师深入参考与应用。

文章链接：

arXiv：https://arxiv.org/abs/2506.13009
PDF：https://arxiv.org/pdf/2506.13009.pdf
USENIX Security 2025 官方版本：https://www.usenix.org/system/files/usenixsecurity25-naderloui.pdf