【学习笔记】探讨大模型应用安全建设系列2——安全评估：攻击面梳理与差距分析

大模型安全建设的第一步，不是买工具，而是先回答三个问题：我们有多少 AI 应用、哪些最危险、现在差在哪里。

安全建设最难的不是"怎么做防护"，而是"不知道自己差在哪"。很多团队买了护栏、配了 WAF、做了等保，但从来没系统性地问过：我的大模型应用到底暴露了哪些攻击面？哪些风险已经被覆盖了，哪些还是空白？

这篇文章的目标是帮你完成一次完整的安全摸底------不用花钱请外部团队，要求你的安全团队自己就能做。

一、明确定位-"看清现状"

如果上一篇是在回答"公司级大模型安全建设怎么启动"，这一篇就进入更具体的问题：启动之前，先把现状摸清楚。没有资产、场景、攻击面和差距分析，后面的护栏、红队、合规都会变成凭感觉投入。

本文回答建设前必须先弄清楚的问题：资产在哪里、攻击面在哪里、差距在哪里、优先级在哪里。

二、评估之前先区分场景需求

大模型应用不能按同一套安全强度管理。在进入评估之前，先把你的 AI 应用分成五类场景，每一类的风险边界和优先控制点不同：

场景分级决定了你的评估优先级 ：内部助手可以先轻量治理；RAG 要优先检查数据边界；公众服务要优先接运行时护栏；Agent 要优先管工具权限；高敏行业要优先准备合规证据

三、画出攻击面：五个维度

大模型应用的攻击面跟传统应用完全不同。传统应用关注接口、数据库和鉴权；大模型应用还需要关注一个全新的"语义层"------模型会解释输入、推断意图、组织上下文、触发动作。

上海人工智能实验室在 2026 年 1 月提出过一个三维正交风险分类框架（where / how / what），提供了一种较系统的 Agent 风险分类视角。但实操层面，我建议先用更简单的五维度模型做快速梳理：

每一个维度，都需要回答三个问题：

1. 谁能接触到这个层？（信任边界）
1. 数据怎么进、怎么出？（数据流向）
1. 出了问题能追溯吗？（可审计性）

四、攻击面的真实案例

这五个维度不是理论推演，每个维度都有真实的攻击案例。

4.1 输入层：零点击邮件入侵

OWASP 在 2026 年发布的 Agentic Application Top 10 中记录了一个案例：一封精心构造的邮件可以静默触发 Microsoft 365 Copilot 执行隐藏指令，外泄机密数据，全程无需用户交互。攻击者不需要"黑进"任何系统，只需要发一封邮件------因为邮件内容会被 Agent 读入上下文，而上下文中的恶意指令和数据没有被有效隔离。

来源：OWASP Top 10 for Agentic Application 2026，ASI01 示例

4.2 工具层："无害"工具的数据外泄

同一个 OWASP 报告中记录了另一个案例：攻击者诱导编码智能体反复触发一个已批准的 ping 工具，通过 DNS 查询把敏感数据外泄出去。ping 工具本身是无害的、权限是被批准的，但攻击者找到了一种方式，把 ping 变成了数据通道。

来源：OWASP Top 10 for Agentic Application 2026，ASI02 示例

4.3 数据层：金融市场的"蝴蝶效应"

攻击者通过提示注入投毒了市场分析智能体，虚增了风险限额；执行智能体据此自动交易了更大的头寸，而合规系统没有察觉。这不是单点攻击，而是跨智能体的级联失败------一个数据源的污染，沿着多智能体链路传播，最终导致了金融风险。

来源：OWASP Top 10 for Agentic Application 2026，ASI08 示例

4.4 模型层：固定模板攻击会大幅低估风险

AVISE 框架的实测数据揭示了一个重要事实：Llama 3.1 8B 在固定模板攻击下的失败率只有 0.16，但换成自适应攻击后飙升到 0.68。Ministral 3 14B 更是达到了 0.84。这意味着，如果你只做基础的"安全测试"，你可能认为系统已经很安全了，但实际面对真实攻击时并不安全。

来源：AVISE 论文（arXiv:2604.20833）

五、自评估 Checklist

有了攻击面模型，接下来是逐项检查。以下 checklist 基于 OWASP LLM Top 10、OWASP Agent Top 10 和中国国标综合整理，分为三个层级：

5.1 A 级（必须立即检查）

这些是最高频、影响最大的风险项：

• 提示注入防护：系统指令是否设置了不可被外部内容覆盖的优先级？用户输入和检索结果是否被标记为"仅作为资料引用"？
• 数据泄露防护：不同权限域的数据是否在进入上下文前做了分级和权限裁剪？RAG 检索层是否做了权限过滤？
• Agent 权限控制：工具是否按风险分层（读/写/删除/支付）？高风险动作是否有人工确认？
• 输出审核：模型输出是否经过敏感信息检测？是否覆盖了 31 类违法不良信息？
• 供应链审查：使用的模型版本、插件、prompt 模板是否有版本管理和来源记录？

5.2 B 级（应尽快覆盖）

• 内容安全：拒答率是否达到 95% 以上？关键词库是否不少于 10000 个？
• 上下文隔离：系统指令、用户输入、检索资料、工具返回值是否在文本身份上被区分？
• 执行隔离：Agent 的输出是否分为 proposal 和 execution 两层？执行层是否独立校验权限和参数？
• 监控与审计：是否有运行时监控？Agent 的执行轨迹是否可追溯？
• 生成合成标识：模型生成的内容是否添加了 AIGC 标识（符合强制性国标要求）？

5.3 C 级（建设成熟度提升）

• 安全评测体系：是否有基线样例集、评分指标和发布门禁？
• 红队测试：是否定期组织红队测试？发现的问题是否回灌为评测样例？
• 护栏鲁棒性评测：护栏是否经过独立评测？是否测试了对未见攻击类型的泛化能力？
• 多智能体安全：智能体间通信是否加密？是否有级联失败的熔断机制？
• 持续合规运营：是否至少每季度做一次标准对标？是否跟踪国标更新？

六、对标国标的差距分析

自查之后，需要把结果映射到合规要求上。以下是中国大模型安全需要重点对标的标准与技术文件：

差距分析输出格式

建议用这个格式记录每项差距：

bash 复制代码

【风险项】提示注入防护缺失
【攻击面维度】输入层
【合规对标】OWASP LLM01、GB/T 45654
【当前状态】系统指令可被用户输入覆盖
【风险等级】高
【修复建议】实现文本身份区分 + 输入过滤
【预计工时】2 周

复制代码

    把所有风险项整理成一张风险矩阵（横轴：可能性，纵轴：影响），然后按优先级排序。这就是你第一阶段安全加固的工作清单。

安全负责人行动项：要求你的团队在两周内用上面的 checklist 完成自查，产出风险矩阵和差距报告。

七、评估工具：从手动到自动化

7.1 入门：手动评估

最低成本的方式是：

1. 用上面的 checklist 逐项自查
1. 从基于 OWASP Agentic Top 10 整理的 65 个攻击示例中挑选与你业务场景相关的，手动构造测试用例
1. 记录结果，标注哪些通过、哪些失败

7.2进阶：开源工具辅助

7.3 关键认知：固定模板攻击不够

AVISE 的实测数据清楚地说明了一个问题：如果你只用固定的攻击模板做测试，你会大幅低估风险。

• Llama 3.1 8B：固定模板失败率 0.16 → 自适应攻击失败率 0.68（上升 4 倍）
• Llama 3.2 3B：固定模板 0.08 → 自适应攻击 0.68（上升 8 倍）

结论：安全评估不能只测"已知的攻击模式"，还需要用自适应攻击工具验证系统面对未知攻击时的表现。

八、评估结果的结构化输出

评估做完之后，需要产出三样东西：

8.1 风险矩阵

把所有发现按"可能性 × 影响"排列，标记优先级。高可能性 + 高影响的项目，必须进入第一阶段修复清单。

8.2 差距报告

每一项差距对标到具体的国标条款和 OWASP 风险编号，方便后续合规备案时直接引用。

8.3 评测基线

把这次评估通过的测试用例固化下来，作为后续版本发布的门禁------新版本上线前，至少要跑过这套基线。

九、小结

安全评估的目的不是"找出所有问题"，而是建立一个基线：知道自己现在站在哪里，才知道下一步往哪走。

用五维度攻击面模型梳理暴露面
用 checklist 做快速自查
用国标做差距对标
用开源工具做自动化验证
把结果固化为风险矩阵 + 差距报告 + 评测基线。

附件：三维正交风险分类框架

上海人工智能实验室在2026年1月提出的三维正交风险分类框架，是其AgentDoG智能体安全守门体系的核心理论基础，核心内容如下：

一、框架定位

这是首个专门针对自主AI智能体的结构化风险分类体系，解决了传统安全分类法标签重叠、无法追溯风险根源的问题，实现了风险从"来源-发生路径-最终影响"的全链路可解释刻画。

二、三个正交维度定义

三个维度完全独立，每个风险行为均可映射为三维坐标上的唯一三元组，消除分类歧义：

风险来源（Source，"来自哪里"）
- 四类风险源头：用户侧（如prompt注入、恶意指令）、环境侧（如交互上下文污染、第三方数据源篡改）、工具侧（如调用的API存在漏洞、返回恶意内容）、智能体内生（如模型幻觉、决策逻辑缺陷、对齐失效）
失效模式（Failure Mode，"如何发生"）
- 两类失效路径：
  - 行为类失效：智能体在交互过程中执行了不安全的操作（如未授权调用敏感工具、错误执行删除指令、访问违规资源）
  - 输出类失效：智能体最终返回的内容存在风险（如生成有害信息、泄露隐私数据、输出错误决策建议）
现实危害（Consequence，"造成什么影响"）
- 覆盖10类实际损害：隐私泄露、金融损失、物理伤害、名誉损害、内容违规、公平性问题、知识产权侵权、公共安全风险、系统稳定性破坏、合规风险

三、框架核心价值

解耦风险标签：将传统混淆的风险类型拆解为独立维度，例如"提示注入攻击"归为来源维，其导致的"未授权数据访问"归为危害维，避免分类重叠
支持根因诊断：通过三维坐标可直接定位风险发生的全链路，为智能体安全防护提供可操作的改进方向
全场景覆盖：理论上可覆盖AI智能体所有复杂交互场景下的风险类型，是后续AgentDoG安全模型和ATBench风险基准数据集的构建基础

该框架已应用于上海AI Lab开源的AgentDoG安全守门模型中，在复杂交互场景下的风险识别准确率达到92.8%，显著优于传统静态内容过滤方案。

参考文献：

1、探讨大模型应用安全建设系列2------安全评估：攻击面梳理与差距分析