数据与模型投毒

给 AI"喂"了有问题的数据，AI 学出来的东西就会有问题------就像食物被污染，吃了就会出问题。这就是数据投毒的核心逻辑。

攻击者可以在 AI 的训练数据中悄悄混入有偏见的、错误的或带有后门的内容，让模型在正常使用时输出有害信息，或在特定触发条件下做出攻击者预设的行为。

AI 训练的三个关键阶段都可能被攻击：

除了数据本身，通过开源平台分发的模型文件也可能被植入恶意代码（比如利用 Python 的 pickle 序列化机制），模型一加载就会自动执行。更隐蔽的是，攻击者还可以植入"后门"------模型平时表现正常，只有在触发特定关键词或条件时才会异常。

攻击者在公开训练数据集里混入有偏见或误导性的内容，利用"Split-View 投毒"或"Frontrunning Poisoning"等技术让 AI 学到错误的规律。
攻击者在训练过程中直接注入恶意样本，影响模型的输出质量。
用户无意间向 AI 输入了公司内部数据，这些数据被模型"记住"，后来可能被其他用户"问"出来。
使用来源不明的数据集进行训练，增加了模型输出偏差或错误信息的风险。
系统缺乏有效的数据访问控制，导致不安全的外部数据被混入训练过程。

场景 1

攻击者污染训练数据或利用提示词注入，让 AI 持续产生特定方向的偏见，用于传播虚假信息。

场景 2

使用未经过滤的有害数据训练的模型，会持续输出危险或带有偏见的内容，难以察觉。

场景 3

恶意竞争者创建大量虚假文档，混入训练数据，让模型输出有利于竞争对手或包含错误信息的结果。

场景 4

过滤机制不完善，攻击者通过提示词注入插入误导性内容，导致模型输出被污染。

场景 5

攻击者利用投毒技术在模型中植入后门触发器。比如当用户输入特定暗号时，模型就自动绕过身份验证，或悄悄泄露敏感数据。