【学习笔记】探讨大模型应用安全建设系列2——安全评估:攻击面梳理与差距分析

大模型安全建设的第一步,不是买工具,而是先回答三个问题:我们有多少 AI 应用、哪些最危险、现在差在哪里。

安全建设最难的不是"怎么做防护",而是"不知道自己差在哪"。很多团队买了护栏、配了 WAF、做了等保,但从来没系统性地问过:我的大模型应用到底暴露了哪些攻击面?哪些风险已经被覆盖了,哪些还是空白?

这篇文章的目标是帮你完成一次完整的安全摸底------不用花钱请外部团队,要求你的安全团队自己就能做。

一、明确定位-"看清现状"

如果上一篇是在回答"公司级大模型安全建设怎么启动",这一篇就进入更具体的问题:启动之前,先把现状摸清楚。没有资产、场景、攻击面和差距分析,后面的护栏、红队、合规都会变成凭感觉投入。

本文回答建设前必须先弄清楚的问题:资产在哪里、攻击面在哪里、差距在哪里、优先级在哪里。

二、评估之前先区分场景需求

大模型应用不能按同一套安全强度管理。在进入评估之前,先把你的 AI 应用分成五类场景,每一类的风险边界和优先控制点不同:

场景分级决定了你的评估优先级内部助手可以先轻量治理;RAG 要优先检查数据边界;公众服务要优先接运行时护栏;Agent 要优先管工具权限;高敏行业要优先准备合规证据

三、画出攻击面:五个维度

大模型应用的攻击面跟传统应用完全不同。传统应用关注接口、数据库和鉴权;大模型应用还需要关注一个全新的"语义层"------模型会解释输入、推断意图、组织上下文、触发动作。

上海人工智能实验室在 2026 年 1 月提出过一个三维正交风险分类框架(where / how / what),提供了一种较系统的 Agent 风险分类视角。但实操层面,我建议先用更简单的五维度模型做快速梳理:

每一个维度,都需要回答三个问题

    1. 谁能接触到这个层?(信任边界)
    1. 数据怎么进、怎么出?(数据流向)
    1. 出了问题能追溯吗?(可审计性)

四、攻击面的真实案例

这五个维度不是理论推演,每个维度都有真实的攻击案例。

4.1 输入层:零点击邮件入侵

OWASP 在 2026 年发布的 Agentic Application Top 10 中记录了一个案例:一封精心构造的邮件可以静默触发 Microsoft 365 Copilot 执行隐藏指令,外泄机密数据,全程无需用户交互。攻击者不需要"黑进"任何系统,只需要发一封邮件------因为邮件内容会被 Agent 读入上下文,而上下文中的恶意指令和数据没有被有效隔离。

来源:OWASP Top 10 for Agentic Application 2026,ASI01 示例

4.2 工具层:"无害"工具的数据外泄

同一个 OWASP 报告中记录了另一个案例:攻击者诱导编码智能体反复触发一个已批准的 ping 工具,通过 DNS 查询把敏感数据外泄出去。ping 工具本身是无害的、权限是被批准的,但攻击者找到了一种方式,把 ping 变成了数据通道。

来源:OWASP Top 10 for Agentic Application 2026,ASI02 示例

4.3 数据层:金融市场的"蝴蝶效应"

攻击者通过提示注入投毒了市场分析智能体,虚增了风险限额;执行智能体据此自动交易了更大的头寸,而合规系统没有察觉。这不是单点攻击,而是跨智能体的级联失败------一个数据源的污染,沿着多智能体链路传播,最终导致了金融风险。

来源:OWASP Top 10 for Agentic Application 2026,ASI08 示例

4.4 模型层:固定模板攻击会大幅低估风险

AVISE 框架的实测数据揭示了一个重要事实:Llama 3.1 8B 在固定模板攻击下的失败率只有 0.16,但换成自适应攻击后飙升到 0.68。Ministral 3 14B 更是达到了 0.84。这意味着,如果你只做基础的"安全测试",你可能认为系统已经很安全了,但实际面对真实攻击时并不安全。

来源:AVISE 论文(arXiv:2604.20833)

五、自评估 Checklist

有了攻击面模型,接下来是逐项检查。以下 checklist 基于 OWASP LLM Top 10、OWASP Agent Top 10 和中国国标综合整理,分为三个层级:

5.1 A 级(必须立即检查)

这些是最高频、影响最大的风险项:

  • 提示注入防护:系统指令是否设置了不可被外部内容覆盖的优先级?用户输入和检索结果是否被标记为"仅作为资料引用"?

  • 数据泄露防护:不同权限域的数据是否在进入上下文前做了分级和权限裁剪?RAG 检索层是否做了权限过滤?

  • Agent 权限控制:工具是否按风险分层(读/写/删除/支付)?高风险动作是否有人工确认?

  • 输出审核:模型输出是否经过敏感信息检测?是否覆盖了 31 类违法不良信息?

  • 供应链审查:使用的模型版本、插件、prompt 模板是否有版本管理和来源记录?

5.2 B 级(应尽快覆盖)

  • 内容安全:拒答率是否达到 95% 以上?关键词库是否不少于 10000 个?

  • 上下文隔离:系统指令、用户输入、检索资料、工具返回值是否在文本身份上被区分?

  • 执行隔离:Agent 的输出是否分为 proposal 和 execution 两层?执行层是否独立校验权限和参数?

  • 监控与审计:是否有运行时监控?Agent 的执行轨迹是否可追溯?

  • 生成合成标识:模型生成的内容是否添加了 AIGC 标识(符合强制性国标要求)?

5.3 C 级(建设成熟度提升)

  • 安全评测体系:是否有基线样例集、评分指标和发布门禁?

  • 红队测试:是否定期组织红队测试?发现的问题是否回灌为评测样例?

  • 护栏鲁棒性评测:护栏是否经过独立评测?是否测试了对未见攻击类型的泛化能力?

  • 多智能体安全:智能体间通信是否加密?是否有级联失败的熔断机制?

  • 持续合规运营:是否至少每季度做一次标准对标?是否跟踪国标更新?

六、对标国标的差距分析

自查之后,需要把结果映射到合规要求上。以下是中国大模型安全需要重点对标的标准与技术文件:

差距分析输出格式

建议用这个格式记录每项差距:

bash 复制代码
【风险项】提示注入防护缺失
【攻击面维度】输入层
【合规对标】OWASP LLM01、GB/T 45654
【当前状态】系统指令可被用户输入覆盖
【风险等级】高
【修复建议】实现文本身份区分 + 输入过滤
【预计工时】2 周
复制代码
    把所有风险项整理成一张风险矩阵(横轴:可能性,纵轴:影响),然后按优先级排序。这就是你第一阶段安全加固的工作清单。        

安全负责人行动项:要求你的团队在两周内用上面的 checklist 完成自查,产出风险矩阵和差距报告。

七、评估工具:从手动到自动化

7.1 入门:手动评估

最低成本的方式是:

    1. 用上面的 checklist 逐项自查
    1. 从基于 OWASP Agentic Top 10 整理的 65 个攻击示例中挑选与你业务场景相关的,手动构造测试用例
    1. 记录结果,标注哪些通过、哪些失败
7.2进阶:开源工具辅助
7.3 关键认知:固定模板攻击不够

AVISE 的实测数据清楚地说明了一个问题:如果你只用固定的攻击模板做测试,你会大幅低估风险。

  • • Llama 3.1 8B:固定模板失败率 0.16 → 自适应攻击失败率 0.68(上升 4 倍

  • • Llama 3.2 3B:固定模板 0.08 → 自适应攻击 0.68(上升 8 倍

结论:安全评估不能只测"已知的攻击模式",还需要用自适应攻击工具验证系统面对未知攻击时的表现。

八、评估结果的结构化输出

评估做完之后,需要产出三样东西:

8.1 风险矩阵

把所有发现按"可能性 × 影响"排列,标记优先级。高可能性 + 高影响的项目,必须进入第一阶段修复清单。

8.2 差距报告

每一项差距对标到具体的国标条款和 OWASP 风险编号,方便后续合规备案时直接引用。

8.3 评测基线

把这次评估通过的测试用例固化下来,作为后续版本发布的门禁------新版本上线前,至少要跑过这套基线。

九、小结

安全评估的目的不是"找出所有问题",而是建立一个基线:知道自己现在站在哪里,才知道下一步往哪走

  • 用五维度攻击面模型梳理暴露面

  • 用 checklist 做快速自查

  • 用国标做差距对标

  • 用开源工具做自动化验证

  • 把结果固化为风险矩阵 + 差距报告 + 评测基线。


附件: 三维正交风险分类框架

上海人工智能实验室在2026年1月提出的三维正交风险分类框架,是其AgentDoG智能体安全守门体系的核心理论基础,核心内容如下:

一、框架定位

这是首个专门针对自主AI智能体的结构化风险分类体系,解决了传统安全分类法标签重叠、无法追溯风险根源的问题,实现了风险从"来源-发生路径-最终影响"的全链路可解释刻画。

二、三个正交维度定义

三个维度完全独立,每个风险行为均可映射为三维坐标上的唯一三元组,消除分类歧义:

  1. 风险来源(Source,"来自哪里")

    • 四类风险源头:用户侧(如prompt注入、恶意指令)、环境侧(如交互上下文污染、第三方数据源篡改)、工具侧(如调用的API存在漏洞、返回恶意内容)、智能体内生(如模型幻觉、决策逻辑缺陷、对齐失效)
  2. 失效模式(Failure Mode,"如何发生")

    • 两类失效路径:
      • 行为类失效:智能体在交互过程中执行了不安全的操作(如未授权调用敏感工具、错误执行删除指令、访问违规资源)
      • 输出类失效:智能体最终返回的内容存在风险(如生成有害信息、泄露隐私数据、输出错误决策建议)
  3. 现实危害(Consequence,"造成什么影响")

    • 覆盖10类实际损害:隐私泄露、金融损失、物理伤害、名誉损害、内容违规、公平性问题、知识产权侵权、公共安全风险、系统稳定性破坏、合规风险

三、框架核心价值

  • 解耦风险标签:将传统混淆的风险类型拆解为独立维度,例如"提示注入攻击"归为来源维,其导致的"未授权数据访问"归为危害维,避免分类重叠
  • 支持根因诊断:通过三维坐标可直接定位风险发生的全链路,为智能体安全防护提供可操作的改进方向
  • 全场景覆盖:理论上可覆盖AI智能体所有复杂交互场景下的风险类型,是后续AgentDoG安全模型和ATBench风险基准数据集的构建基础

该框架已应用于上海AI Lab开源的AgentDoG安全守门模型中,在复杂交互场景下的风险识别准确率达到92.8%,显著优于传统静态内容过滤方案。

参考文献:

1、探讨大模型应用安全建设系列2------安全评估:攻击面梳理与差距分析

相关推荐
NPE~1 小时前
[安全]互联网安全 — — 黑灰产概念科普
安全·科普·互联网安全·概念科普·黑灰产
ljt27249606611 小时前
Vue笔记(三)--用户交互
javascript·vue.js·笔记
星夜夏空992 小时前
STM32单片机学习(15) —— PC串口通信实验
stm32·单片机·学习
网络工程小王2 小时前
【大模型vLLM 使用】学习笔记
笔记·学习·llama
Genevieve_xiao2 小时前
【xjtuse】【数学建模】课程笔记(四)种群模型(微分方程稳定性)、随机模型、贝叶斯
笔记·数学建模
devilnumber2 小时前
如何在java的Lambda中安全地修改外部变量?
java·安全·lambda
打码人的日常分享2 小时前
大模型及智能体安全风险防范与治理策略(PPT)
运维·网络·数据库·安全·云计算·制造
星夜夏空992 小时前
STM32单片机学习(14) —— STM32的串口外设
stm32·单片机·学习
栉甜2 小时前
APIs学习
前端·javascript·css·学习·html