AI安全威胁全解析：四大攻击手法与纵深防御体系的构建之道

前言

随着大语言模型（LLM）和生成式AI技术的迅猛发展，AI系统已成为企业核心竞争力的关键组成部分。然而，AI模型的安全风险也日益凸显。2025年，OWASP发布了GenAI/LLM Top 10最新版，系统性地梳理了当前AI系统面临的最严重安全威胁，将焦点从"提示词技巧"转向了日常开发团队实际面对的RAG流水线、智能体工具以及使用成本等现实问题。在众多AI安全威胁中，闪避攻击（Evasion Attack）、药饵攻击（Poisoning Attack）、后门攻击（Backdoor Attack）和模型/数据窃取攻击（Model/Data Theft） 是四种最具代表性且危害极大的攻击方式。本文将深入剖析这四类攻击的特点、典型案例及相应的防御策略，并将这些防御措施置于纵深的AI安全防护体系中加以审视。

一、闪避攻击（Evasion Attack）：欺骗模型的"障眼法"

1.1 攻击特点

闪避攻击，又称对抗性攻击，是攻击者在推理阶段对输入数据进行人眼难以察觉的微小扰动，从而欺骗AI模型做出错误分类或错误判断的攻击方式。这种攻击不影响模型的训练过程，仅在预测阶段发挥作用，但其危害却十分显著。

在计算机视觉领域，研究人员曾证明，在停车标志上粘贴微小贴纸即可欺骗自动驾驶汽车的视觉模型，将其误判为限速标志。在网络安全领域，攻击者可以在不破坏恶意软件原有功能的前提下，通过替换API调用、注入垃圾代码或代码混淆等方式，让AI防毒系统将其误判为正常软件。传统的防毒软件依赖病毒特征码，面对这种变种攻击时防护效果十分有限。

值得注意的是，恶意程序攻击者比图像领域的攻击者拥有更大的操作空间------他们可以大幅修改代码，只要确保功能正常即可。这种较大的操作弹性，正是多数标准防御措施失效的主要原因。

1.2 防御策略

针对闪避攻击，当前主流防御策略包括：

对抗性训练（Adversarial Training） ：让模型在训练阶段接触对抗性样本，从而提升其对扰动输入的鲁棒性。这是目前应用最广泛的防御手段之一。对抗性训练使模型在干净样本和对抗扰动样本上同时学习，有效提升模型鲁棒性。

防御性蒸馏（Defensive Distillation） ：通过平滑模型的决策边界，降低模型对微小扰动的敏感性。知识蒸馏技术可以将教师模型的鲁棒性传递给学生模型，同时减少对抗攻击的影响。

基于稳定特征的检测：法德研究团队提出的ERDALT框架，不再假设攻击者只做微小改动，而是主动识别在常见变形攻击下仍保持稳定的程序特性，同时过滤容易被攻击者操纵的特征。该框架的核心设计哲学是"预设攻击者会规避"，将对抗性攻击视为防御设计的基本考量。测试表明，ERDALT的表现优于单纯的对抗训练和手动特征选择等防御措施。

1.3 在纵深防御体系中的位置

闪避攻击的防御应部署在模型推理和API层 ，构成纵深防御体系的第三道防线------运行态纵深防御 。具体而言，在模型运行时通过输入验证、对抗性检测和输出审核等机制实时拦截对抗样本。CSA（云安全联盟）推荐采用分层方法：强化输入验证、允许名单和异常检测，配合持续监控和SIEM告警集成。同时，对抗性训练作为模型开发阶段的预置防御，属于第一道防线------源头安全的范畴。

二、药饵攻击（Poisoning Attack）：污染模型的"数据毒药"

2.1 攻击特点

药饵攻击，专业术语称为数据投毒，是指攻击者在AI模型的训练或微调阶段，故意植入恶意或虚假数据，破坏模型的知识体系与行为逻辑，导致模型输出错误信息。OWASP已将此类风险正式列为LLM04:2025------Data and Model Poisoning。

数据投毒是一种因果性攻击 ，攻击者通过接近模型的训练过程来降低模型精度，其作用时间是在训练期间而非预测期间。攻击者可利用数据污染---算法劫持---认知固化的闭环，实现对AI输出结果的定向操控。

药饵攻击可发生在LLM生命周期的多个阶段：

预训练阶段：攻击者在公开网页中植入恶意内容，模型在抓取训练数据时将其摄入。
微调阶段：通过注入伪造的领域专有数据，使模型在特定任务上产生偏差。
RAG检索阶段：通过高权重恶意内容抢占模型检索结果，用"伪权威"覆盖真实信息。

当前，AI投毒已形成完整产业链，呈现链条化、隐蔽化、跨境化特征。不法分子借助GEO（生成式引擎优化）工具批量生成虚假产品测评、伪造权威榜单，通过数千个网站矩阵投放，AI模型在训练时抓取此类内容后，少量恶意数据经迭代学习便会固化为"权威认知"。

2.2 防御策略

对抗药饵攻击需要建立贯穿数据全生命周期的防御体系：

数据源验证与过滤：OWASP建议对数据集来源进行溯源验证和完整性检查，采用人工审核和数据异常过滤。具体包括数据清洗和去敏程序，去除敏感信息并识别潜在的偏误或错误。

行为监控与模型漂移检测：通过对抗性测试持续检测模型行为的异常变化，及时发现因投毒导致的模型输出偏差。

差分隐私与鲁棒优化：确保模型更新不会暴露敏感数据模式，降低投毒攻击对模型行为的可控影响。实验表明，现有防御方法面临效率与安全的权衡困境，未来的研究方向应集中于构建具有内生安全属性的新一代人工智能系统。

回归分析与集成学习：采用统计学方法检测数据集中的噪声和异常值，同时使用多个独立子模型共同构成AI系统，降低单一投毒攻击影响整个系统的可能性。

孟庆涛提出的"合规优先、源头治理、动态免疫"防御体系，强调AI安全的核心在数据源，防御必须前移至信息生产与传播的最前端。

2.3 在纵深防御体系中的位置

药饵攻击的防御应部署在模型开发阶段的数据处理层 ，属于纵深防御体系的第一道防线------源头安全。具体措施包括：数据源合规审查与溯源验证、数据清洗与去敏、供应链安全管控（AI-SBOM构建）以及持续的行为监控。根据CSA的防御框架，还应落实全生命周期安全管控，包括版本控制、访问审计和回滚计划。

三、后门攻击（Backdoor Attack）：潜伏模型的"定时炸弹"

3.1 攻击特点

后门攻击是指攻击者在AI模型中植入隐藏的"触发器"，当输入数据中包含特定模式（如特定短语、图像特征等）时，模型会表现出预设的恶意行为，而在正常输入下则表现正常。后门攻击可以通过训练数据投毒或直接修改模型参数的方式植入。就像一扇可以通往模型的"门"，平日里保持静默，但一旦被"触发"，就可能导致模型出现异常行为。

根据注入阶段，后门攻击可分为数据集投毒、模型/参数修改和推理时注入三大类型；按触发器类型可分为补丁触发、混合/频率触发、语义触发和变换触发等。

在LLM场景中，后门攻击主要通过提示词后门注入实现：通过微调、插件植入等方式，在模型权重中嵌入触发式恶意指令。模型日常运行正常，但遇到特定关键词时自动输出预设虚假信息，常规检测难以识别。此外，2025年的研究还揭示了供应链后门风险------Hugging Face等模型仓库中的恶意模型可能植入后门，以及设备端劫持篡改量化模型参数等攻击路径。

3.2 防御策略

后门攻击因其隐蔽性强，防御难度较大。主要防御策略包括：

模型检测与净化：在部署前进行全面的后门检测，Neural Cleanse、ULPs、STRIP等方法可有效检测隐藏的触发器模式。针对已植入后门的模型，可采用模型净化（Model Purification）技术，如CMP（Calibration-free Model Purification）可在无需干净数据的情况下将攻击成功率降至接近零，同时保持模型准确率。

剪枝与微调：针对LLM中的后门攻击，注意力头剪枝（attention-head pruning）被证明是一种有效的防御手段，其中基于梯度的剪枝对句法型后门最为有效，而强化学习和贝叶斯剪枝在风格型触发器上表现更佳。

联邦学习环境防御：FedCleanse等后聚合净化方法无需额外的干净数据即可消除后门影响。

供应链安全管控：使用SBOM（软件物料清单）和ML-BOM管理模型组件清单，对模型提供商、数据集和依赖项进行尽职调查。通过模型水印和签名验证追踪模型流向防篡改。

模型水印：将不可见的水印信息嵌入模型权重参数中，当水印被破坏时可作为模型被盗用的证据。最新研究提出SleeperMark框架，通过解耦水印信息与模型学习到的语义概念，使水印在模型适应新下游任务时依然保持韧性。

3.3 在纵深防御体系中的位置

后门攻击的防御分布于模型开发、部署和运行时三层 ，构成纵深防御的第一、二、三道防线：

第一道防线（源头安全） ：对基座模型和开源模型进行完整性校验和投毒检测，构建AI-SBOM追踪模型组件来源。
第二道防线（上线前安全评测） ：部署前通过红队评估和自动化安全测评，利用Neural Cleanse等工具进行全面的后门检测。
第三道防线（运行态防御） ：部署后持续监控模型输出的异常模式，及时识别被激活的后门行为，并结合SBOM和模型水印进行事后溯源。

四、模型/数据窃取攻击（Model/Data Theft）：盗取资产的"隐形窃贼"

4.1 攻击特点

模型窃取，也称为模型提取，是指攻击者通过反复与模型交互并分析其响应，未经授权复制或克隆机器学习模型的行为。与传统的软件窃取不同，这种攻击不一定需要窃取模型文件，攻击者仅需通过API发送数千个精心设计的查询，即可推断出模型的架构、参数和行为，从而重建一个功能相似的盗版模型。

模型窃取的典型攻击路径包括：

API抓取与基于查询的攻击：攻击者通过API接口向目标模型提交大量查询请求，收集输入输出对，进而训练一个功能相似的替代模型。此类攻击已实证可复现ResNet-50、BERT、YOLOv5等主流模型，造成知识产权严重流失和商业竞争优势瓦解。

成员推断攻击（Membership Inference Attack） ：利用模型对训练集内/外样本输出分布的细微差异，反向识别某条数据是否参与过原模型训练，进而辅助定位敏感训练子集。

梯度估计攻击（Gradient Estimation Attack） ：针对支持梯度返回的API（如部分联邦学习或可微分推理接口），通过有限次查询逆向估算局部梯度方向，实现参数级逼近。

新型攻击变种：研究人员提出的δ-STEAL攻击，通过向模型微调过程中注入满足本地差分隐私保护的噪声，可绕过服务提供商的水印检测器，攻击成功率高达96.95%。

OWASP将模型窃取与拒绝服务威胁一并纳入LLM10:2025 Unbounded Consumption类别，强调这类攻击不仅会造成IP损失，还会带来财务损害。

4.2 防御策略

模型窃取防御需要从多个层面协同推进：

API访问控制与速率限制：限制API的查询频率、输入长度及输出详细程度，设置每秒最大查询数，对输出结果进行模糊化处理。采用RBAC和ABAC相结合的访问控制体系，支持基于动态上下文属性（时间、地理位置、设备指纹、请求频率等）的细粒度实时决策。

差分隐私与同态加密：在推理输出中注入可控噪声，严格限制单次查询对模型内部状态的信息增益。同态加密则允许客户端加密输入、服务端在密文空间完成模型推理，全程原始数据与模型参数均不暴露。

模型水印与版权验证：通过在训练过程中向权重参数添加不可见的微小扰动，嵌入水印信息，从而验证模型来源并追踪盗版行为。LicenseNet等模型IP保护框架通过嵌入许可证特征实现模型的授权访问管理。

主动防御：Model-Guardian等防御框架通过梯度表示和欺骗性预测来保护模型隐私，能够检测并防御无数据模型窃取攻击。

"毒丸"防御：通过向专有知识图谱数据中注入虚假信息，使得被盗数据在被用于未经授权的AI系统时变得毫无价值。

4.3 在纵深防御体系中的位置

模型窃取防御部署在运行时API层和基础设施层 ，属于纵深防御体系的第三道防线------运行态纵深防御 和第四道防线------常态化安全运营。具体措施包括：

API网关层面的速率限制和访问控制
推理输出模糊化和隐私增强计算
实时监控异常查询模式和窃取行为
模型水印嵌入用于事后溯源取证
结合威胁情报构建主动防御能力

五、纵深防御体系：从四类攻击防御看整体架构

AI安全防御不能依赖单一技术手段，而应构建贯穿模型全生命周期的多层纵深防御体系。绿盟科技提出的"四道防线"理念，从模型生命周期的源头治理到持续运营，形成了完整的安全闭环。这一框架并非简单的技术堆叠，而是将安全能力嵌入智能体应用的每一个关键节点，实现"安全左移"与"持续防护"的有机结合。

5.1 四道防线架构

第一道防线：源头安全------模型选用与开发阶段的合规与校验

聚焦于大模型应用的起点，解决"源头安全"问题。在模型选型决策阶段，企业应核查服务提供商的算法备案状态、风险评估报告完整性，并在SLA中明确安全责任边界。对于开源模型自主部署方案，需要对模型权重文件进行完整性校验，防止下载过程中被篡改或植入后门；对推理框架及其依赖组件开展漏洞扫描；构建AI-SBOM覆盖模型、数据、工具链和运行时层面，形成完整的资产台账与风险地图。

第二道防线：准入安全------应用上线前的多维度安全评测

确保模型在正式上线前经过严格的安全评测，包括内容安全（有害信息生成、偏见歧视、价值观对齐）、对抗安全（提示词注入、越狱攻击、多轮诱导）、供应链安全（依赖漏洞、许可证冲突、后门植入）等多个维度。AI红队评估是这一防线的高阶实践，从真实攻击者视角出发，系统性评估AI系统在全生命周期各阶段的安全性，并提供可落地的修复建议。

第三道防线：运行安全------覆盖全场景的纵深防御体系

模型上线后，仍需面对复杂多变的运行时威胁。这一防线整合了输入/输出过滤、API速率限制、运行时监控、沙箱隔离等多项技术措施。360提出的"模型层---基础设施层---智能体层---应用层"纵深防护体系，强调通过自己训练微调小模型，聚焦模型训练和样本投毒等模型攻防领域研究和AI基础设施平台安全建设。OWASP GenAI Security Project解决方案参考指南进一步明确了LLMOps和LLMSecOps生命周期各阶段的安全实践，涵盖规划、数据处理、部署和监控等阶段，并引入了AI防火墙等创新安全解决方案。

第四道防线：运营安全------常态化的安全监控与响应

将安全能力从"被动防御"升级为"主动免疫"。通过持续的威胁情报收集、漏洞管理、安全事件响应和定期红蓝对抗演练，形成安全闭环。OWASP的GenAI Incident Response Guide为安全从业人员提供了针对GenAI应用安全事件的响应指南和最佳实践。

5.2 四类攻击在防线中的分布

以下将四类攻击的防御措施映射到四道防线中，形成清晰的防御矩阵：

攻击类型	第一道防线（源头安全）	第二道防线（准入安全）	第三道防线（运行安全）	第四道防线（运营安全）
闪避攻击	对抗性训练（开发阶段预置）	模型鲁棒性评测	输入验证、对抗样本实时检测、输出审核	攻击模式监控、防御策略迭代
药饵攻击	数据源合规审查、数据清洗、AI-SBOM	训练数据集完整性校验、异常检测	RAG检索过滤、动态对抗测试	模型漂移持续监测、威胁情报
后门攻击	模型完整性校验、AI-SBOM供应链追踪	红队评估、Neural Cleanse后门检测	运行时行为监控、模型净化	事件响应、后门溯源取证
模型/数据窃取	模型水印嵌入、差分隐私训练	API安全设计评审	API速率限制、输出模糊化、访问控制	异常查询监控、窃取行为检测

5.3 从"被动补强"到"主动免疫"的范式转型

当前AI安全领域正经历从"被动补强"到"主动免疫"的范式转型。ERDALT框架的核心启示在于：防御设计应当预设攻击者会规避，将对抗性攻击视为基本考量，而非事后补强项目。孟庆涛提出的"合规优先、源头治理、动态免疫"防御体系，同样强调AI安全的核心在数据源，防御必须前移至信息生产与传播的最前端。

360提出的"外挂式安全 + 平台原生安全"双轨治理框架，以及腾讯云鼎实验室构建的贯穿模型全生命周期的智能安全体系，都体现了"AI对抗AI"的理念，将安全能力从被动响应升级为主动防御。

结语

AI安全是一场持续的攻防博弈。攻击者手段日益隐蔽和复杂，从针对推理阶段的闪避攻击，到污染训练数据的药饵攻击，再到潜伏于模型内部的后门攻击，以及盗取核心资产的模型盗窃------每一种攻击方式都在挑战现有安全体系的底线。

面对这些威胁，企业需要建立贯穿模型全生命周期的四道防线纵深防御体系：在源头阶段建立数据验证和模型完整性校验机制，在上线前实施全面的安全评测与红队测试，在运行期间整合输入/输出过滤、API管控和实时监控，在运营阶段通过持续威胁狩猎和事件响应形成安全闭环。正如ERDALT框架所启示的------防御设计应当预设攻击者会规避，将对抗性攻击视为基本考量。只有这样，才能在这场永不停歇的攻防博弈中立于不败之地。