[论文学习]LLM 遗忘机制对真实世界扰动资料的稳健性研究

Noisy But Forgotten: LLM Unlearning are Robust against Perturbed Data in the Wild (C. Wang et al., ICML 2025 workshop)

大型语言模型 (LLM) 在训练大量异质数据后，具备强大生成能力，但也带来严重风险：memorization 导致隐私泄漏、放大社会偏见、生成有害或非法内容（如生物安全相关危险知识）。

LLM Unlearning（机器遗忘） 正是为解决这些问题的关键技术，目标是在**不大幅损害模型整体效用（utility）**的前提下，选择性地移除特定「忘记数据」（forget set）所诱导的知识。

现有 unlearning 方法（如 RMU - Representation Misdirection Unlearning 、NPO - Negative Preference Optimization ）多假设 forget set 是干净、高保真、精确定义的。

然而，真实部署情境中，忘记数据常为**低质量、扰动（noisy/perturbed）**形式：

Incomplete（不完整）：因隐私限制、数据截断或仅有部分内容，导致 token-level 随机遮罩（e.g., 5% masking）。
Rewritten（重写）：用户或 LLM 本身对敏感内容进行改写/同义改述，引入表面形式变化但保留语义。
Watermarked（水印）：使用 KGW 或 SynthID 等 LLM watermarking 技术嵌入不可见信号，用于版权追踪或 IP 保护，引入模型特定 artifacts。

这些「noisy forget sets」会引入意外 artifacts（如风格化表述或水印信号），可能干扰 unlearning 过程。

论文提出核心研究问题（Q） ：忘记数据的质量与来源，如何影响 unlearning 的有效性与稳健性？即使在评估时使用无噪声 forget data，也会如何？

这是第一篇系统性地从数据中心（data-centric）视角探讨 unlearning 的工作，链接 machine unlearning、data provenance 与 generative model artifacts。

现实中，忘记请求常来自不完整或合成数据，若 unlearning 对此不稳健，将严重限制其实际应用价值。论文强调，这不是对抗性 poisoning，而是自然、真实世界的扰动。

论文在 WMDP （危险知识移除，如生物安全领域，Zephyr-7B-beta 模型）和 MUSE （记忆相关评估，ICLM-7B 等）基准上进行广泛实验 ，使用 RMU 与 NPO 两大 SOTA 方法。

Unlearning 效能几乎不受影响 ：无论 forget data 是 original、incomplete、rewritten 或 watermarked（KGW/SynthID），unlearn efficacy（如 WMDP 上的 hazardous knowledge 移除）维持在相似水平。Rewritten 和 watermarked 版本甚至常达到 comparable 或略优的 forgetting 效果。
General Utility 保留良好：在 MMLU 等零样本任务上，模型整体能力下降极小。Incomplete masking 可能略微影响 utility（因遗失关键 token），但整体稳定。
跨方法与基准一致：NPO 在 MUSE 上对 Verbatim Memorization、Privacy Leakage 等指标展现强抑制；RMU 同样稳健。
Error Set Overlap 等额外指标：证实 unlearned knowledge 的差异有限。

通过 saliency map 或梯度/注意力分析，发现核心语义元素（high-saliency semantic components）在各种扰动下仍被保留。表面形式（surface form）大幅改变，但驱动 forgetting 的深层语义线索保持一致。

这解释了为何 unlearning 对 noisy data 具鲁棒性 ------ 算法主要依赖深层语义而非浅层词汇模式。

语义 vs. 表面形式 ：LLM 内部表征高度抽象，unlearning（如 RMU 的 representation redirection）捕捉的是高阶语义而非精确 token 序列。Rewritten data 虽改变表述，但保留 intent，因此仍有效触发 forgetting。Watermark 虽嵌入额外信号，但未破坏核心 semantic cues。
Incomplete 的边缘情况 ：随机 masking 可能意外移除高 saliency token，导致略弱效果，但整体仍可接受。这暗示未来可优化 masking 策略（如 saliency-aware masking）。
与既有文献比较 ：不同于 test-time distribution shift 或 adversarial attack，本文聚焦 train-time natural perturbations。更广泛而言，这强化了「unlearning 非完美但实用」的观点，尤其在 privacy/safety 应用中。
局限与 edge cases：若扰动过度破坏 semantic（e.g., 高 masking rate 或完全无关 rewrite），效果可能衰退。论文未深入 worst-case adversarial noisy data，或多轮 unlearning 累积效应。Watermark 强度、rewrite 质量也可能影响结果。
实际意涵 ：对企业/监管者而言，好消息是即使 forget data 不完美，unlearning 仍可靠；但也提醒需注意 data provenance ，避免过度依赖合成数据引入新 artifacts。对研究者，鼓励开发更 data-robust 的 unlearning 框架（如结合 provenance detection）。

论文结论指出：LLM unlearning 对真实世界扰动数据展现惊人稳健性，核心语义元素在表面变化下仍被有效捕捉。

这既肯定现有方法（如 RMU、NPO）的实用潜力，也强调采用数据中心视角评估 unlearning 效能的重要性。

总体而言 ，这是一篇具前瞻性与实务价值的论文，为 LLM 安全部署提供重要洞见：在 noisy 但 semantic-preserved 的真实世界 中，「Noisy But Forgotten」仍是可行的。

文章链接：

OpenReview：https://openreview.net/forum?id=DEXXC6ClQ2 （或 PDF: https://openreview.net/pdf?id=DEXXC6ClQ2）
arXiv：https://arxiv.org/abs/2510.09007 （或 PDF: https://arxiv.org/pdf/2510.09007）