【学习笔记】数据投毒的9种攻击方法与防御措施

在生成式模型被大规模部署之前，很多人以为 AI 安全主要发生在"模型上线之后"。但越来越多的研究和真实案例表明，真正长期、隐蔽、难以修复的风险，往往发生在模型还没上线之前------发生在训练数据里。

数据投毒（也称投毒攻击）是一种训练阶段的攻击，其通过污染训练数据类干扰模型的训练从而达到降低模型的推理能力的目的。

数据投毒并不需要篡改模型参数，也不需要入侵推理系统。攻击者只需要影响模型"学习世界的方式"，就可能在模型行为中留下长期、稳定、难以察觉的偏差。

下面，我们从已有研究和实际安全事件中，总结9类已经被反复验证的数据投毒攻击方式，并结合其主流防御思路进行说明。

一、标签反转（Label Flipping）

标签翻转是最容易理解的一类数据投毒攻击。样本本身没有问题，但标签被刻意标错。

例如，在内容审核或舆情分析模型的训练集中，一部分立场中性的文本被标注为"违规"或"有害"；或者在风控场景中，将本应判定为高风险的样本标为正常。只要这种操作具有一定规模和方向性，模型就会逐渐学到错误的判断边界。

现实中，这类风险并不一定来自"外部攻击者"。外包标注、众包平台、自动弱标注规则，本身就可能成为被操纵的入口。一旦某类样本被系统性错标，模型对该领域的判断能力就会出现结构性偏差。

针对这类攻击，相关研究并不试图重新判断"谁是对的"，而是关注一种现象：为什么这些样本，长期与模型的预测结果强烈不一致？

如果某些样本在多轮训练中始终呈现出"特征高度支持 A，但标签却是 B"的状态，可以被理解为"指鹿为马"，它们往往不是自然噪声，而是被人为污染的结果。

二、在线投毒攻击（p-tampering attack）

在线投毒攻击是指在在线学习过程中对训练样本以一定概率p进行投毒以此削弱模型推理能力的攻击。可以理解为"暗度陈仓"。在不改变类别标签的情况下（高隐蔽性），以一定概率偷偷修改样本，是数据分布产生偏移。

在线投毒是一种只依赖当前时刻样本的高效在线数据投毒攻击。

三、净标签投毒（Clean-Label Poisoning）

相比标签翻转，更隐蔽的是净标签投毒。在这种攻击中，标签完全正确，样本看起来也合理，但样本是被精心构造的。

攻击者的目标不是让模型整体性能下降，而是悄悄改变模型在特定输入附近的决策边界。模型在验证集和测试集上可能表现正常，但在攻击者关心的输入上，会稳定地产生错误判断。

这类攻击在学术界被广泛研究，原因很简单：它非常符合真实世界的攻击需求------低噪声、低可见性、高针对性。

防御这类攻击时，研究者逐渐意识到一个问题：单纯看样本"合不合理"是不够的，关键在于这个样本对模型学习过程的影响是否异常地大。

如果极少数样本对参数更新、决策边界移动产生了远超常规的影响，它们就值得被单独审计。

四、特征投毒（Feature Poisoning）

特征投毒并不直接操纵标签，而是改变模型用来做判断的依据。

例如，在文本任务中，攻击者可能在某一类别的样本中反复注入某些特定词语或表达方式；在图像任务中，则可能加入人眼难以察觉、但模型高度敏感的纹理模式。模型训练完成后，确实能在测试集上取得不错的效果，但它真正学到的并不是任务语义，而是这些被人为植入的"捷径特征"。

现实中，这类问题往往表现为：模型在实验环境中表现稳定，一旦部署到真实世界，性能却迅速恶化。事后回溯发现，模型依赖的是训练数据中特有、但现实中并不稳定的特征分布。

防御这类攻击，相关研究普遍认为必须进入特征或表示空间。如果一批样本在 embedding 空间中形成异常紧密的聚类，而这种聚类又无法用语义合理性解释，它们就很可能是被投毒的结果。

五、后门投毒（Backdoor Poisoning）

后门投毒是目前最具现实威胁的一类数据投毒攻击。它的特征非常明确：模型在绝大多数输入下行为完全正常，但只要出现某个特定触发条件，就会稳定输出攻击者指定的结果。

这个触发条件可以非常简单------一段短语、一个固定格式，甚至是一种微小的视觉标记。由于模型整体性能几乎不受影响，常规评测手段很难发现这种问题。

在图像识别、语音识别和文本模型中，后门投毒已经被多次复现实验验证，也被视为"最难通过指标发现"的安全风险之一。

因此，相关研究逐渐形成共识：后门投毒无法依赖通用异常检测解决，必须做专项分析。

防御思路通常是反向提问：是否存在一种极小的输入扰动，可以稳定触发异常输出？一旦答案是肯定的，模型就可能已经被植入后门。

六、语义后门（Semantic Backdoor）

随着模型能力提升，攻击者开始放弃固定关键词式的触发器，转而利用模型的语义理解能力。

语义后门的触发条件不再是具体 token，而是某一类语义结构、叙事方式或上下文意图。例如，模型在普通问答中完全正常，但在特定政治叙事或价值判断场景中，会稳定输出带有明显倾向性的结论。

这类风险在大模型时代尤为突出，因为模型本身就具备很强的语义泛化能力，也更容易被"条件化行为模式"所操控。

针对语义后门，研究界普遍认为，仅靠输入扫描几乎无效。真正有效的方式，是从行为层面审计模型：在不同语义条件下，系统性观察模型输出分布是否发生不合理的突变。

七、虚假样本注入（Fake / Synthetic Data Poisoning）

虚假样本投毒的特点是：整个样本并不来自真实世界。

攻击者可以人工构造样本，也可以利用生成模型批量生成，再混入真实训练数据中。随着生成式模型成本不断下降，这类攻击的门槛正在快速降低。

现实中已经出现过模型在某些议题上呈现出高度一致、却明显偏离现实的数据分布。追溯训练数据后发现，相关样本在语言风格、结构和表达方式上高度相似，明显不符合自然数据的多样性特征。

防御这类攻击的核心，并不是"识别真假"，而是判断数据分布是否合理。如果一批样本在困惑度、句式结构、表达风格上过于统一，就值得被重点审计。

八、重复样本放大（Data Replication）

有些攻击并不需要构造新样本，只需要反复注入已有样本即可。

通过大量重复某一类数据，攻击者可以在不引入明显异常的情况下，悄悄放大某种模式在训练中的权重。模型最终形成的偏见，并不是来自单条异常数据，而是来自"被刷出来的统计优势"。

在大规模训练场景中，这类攻击尤其隐蔽，因为单条样本本身完全合理。

因此，相关研究普遍强调：训练数据层面必须引入去重、样本多样性约束和动态降权机制，否则模型极易被"数量优势"误导。

九、优化过程投毒（Gradient / Optimization Poisoning）

最后一类攻击，直接绕过"数据分布"层面，转而攻击训练过程本身。

在这种攻击中，攻击者的目标不再是某几条样本，而是模型参数更新的方向。通过精心构造的数据，甚至直接操纵梯度，攻击者可以在极低投毒比例下，实现对模型行为的定向操控。

这类攻击在联邦学习、分布式训练等场景中尤为突出，因为训练过程本身就依赖来自多个参与方的更新结果。一旦其中一部分更新被恶意操纵，就可能对全局模型产生 disproportionate 的影响。

防御这类攻击，已经超出了传统"数据清洗"的范畴。

研究界更关注在训练机制层面引入鲁棒性约束，例如限制单次更新的影响范围、采用中位数或鲁棒聚合策略，以避免极端更新主导模型学习方向。

十、结语

从已有研究和现实案例来看，数据投毒并不是某一个"漏洞"，而是一整条攻击路径。它可以发生在标注阶段、数据收集阶段、训练阶段，甚至模型协同训练过程中。

在大模型时代，训练数据已经不只是"原材料"，而是决定模型价值观、判断边界和行为模式的关键基础设施。而一旦在这个阶段出现问题，往往最难被发现，也最难被修复。

参考阅读

1.Biggio & Roli, Wild Patterns: Ten Years After the Rise of Adversarial Machine Learning

2.Papernot et al., On the Security of Modern Machine Learning Systems

3.Gu et al., BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain

4.Turner et al., Clean-Label Backdoor Attacks

5.Bagdasaryan et al., How To Backdoor Federated Learning