【学习笔记】探讨大模型应用安全建设系列——顶层规划：如何推动公司级大模型安全建设-1

客服机器人、知识库问答、代码助手、Agent 自动化------不管哪个场景，大模型正在从"试试看"变成"真的在用"。但大多数团队的安全建设还没有跟上。模型上线了，护栏没装；Agent 能调工具了，权限没控；数据进上下文了，分级没做。

不是安全团队不重视，而是大模型安全跟传统安全确实不一样------攻击面变了，合规要求变了，甚至连"该谁来管"都还没理清楚。

这篇文章想回答一个很实际的问题：作为甲方安全负责人，怎么推动公司在大模型安全上真正投入资源、建立体系、拿到结果？

一、先厘清边界

大模型应用安全只是 AI 安全的一环。在正式谈建设路线之前，必须先把边界说清楚：大模型应用安全不是 AI 安全的全部。

如果把 AI 安全工程看成一套完整体系，至少会覆盖八类能力：数据安全、模型安全、大模型应用安全、Agent 与工具安全、AI 基础设施安全、内容与合规安全、安全评测与红队、安全运营与治理。大模型应用安全只是其中一块，重点解决的是"模型接入业务系统之后，输入、上下文、工具调用、输出、日志和责任链怎么可控"的问题。

这件事很重要。因为甲方安全负责人很容易遇到两种误区：

第一种误区，是把大模型应用安全当成传统 Web 安全的一个补丁，以为加一个 WAF、写几条提示词规则、做一点内容审核就够了。这样会漏掉 RAG 越权、间接提示注入、Agent 工具滥用、上下文泄露、模型输出责任等新问题。

第二种误区，是把大模型应用安全当成 AI 安全的全部，以为做了护栏、评测和备案，就等于公司 AI 安全体系已经建成。这样会漏掉训练数据安全、模型供应链、模型后门、基础设施隔离、算力平台安全、AI 研发治理等更底层的问题。

更准确的定位是：大模型应用安全是企业当前最容易落地、也最容易出事故的连接层。 它连接业务、数据、模型、用户、工具和日志，所以应该优先建设；但它不能替代完整的 AI 安全工程。

所以这篇文章讨论的是"公司级大模型安全建设怎么启动"，不是宣称"做完大模型应用安全就完成了 AI 安全"。后续所有建设建议，都应该放在这个边界里理解：先把应用侧高风险链路管住，再逐步扩展到数据、模型、基础设施、合规和运营的完整 AI 安全体系。

二、为什么不能只按传统安全附属项来管

等保 2.0 能覆盖大模型安全吗？覆盖不了。

这不是否定等保的价值，而是大模型带来了一类全新的风险------等保的框架里根本没有对应项。

这个差距不是"加强一下"就能补的。等保的假设是：系统行为可预测、输入可控、权限边界清晰。但大模型系统不是这样工作的------自然语言同时承载了数据和指令，模型输出有不确定性，Agent 还能调用外部工具。

正确的认知是：等保是必要条件，不是充分条件。

大模型安全需要自己的建设立项、自己的评估标准、自己的运营流程。如果只把它当作传统安全的附属项来处理，大概率会变成"出了事再补"。

三、如何向管理层论证投入

安全团队最常见的困境是：大家都知道安全重要，但没人愿意先掏钱。大模型安全尤其如此------因为它还没有出过"让全公司停摆"的大事故，管理层很难感受到紧迫性。

三个角度可以用来论证：

3.1角度一：合规倒逼

不是"要不要做"，是"不做过不了关"。

中国大模型监管已经进入实操阶段：

截至 2025 年底，累计已有 600+ 款大模型完成备案。备案的前提是通过安全评估，而安全评估的标准在 2025 年集中落地了一批：
- GB/T 45654-2025《生成式人工智能服务安全基本要求》（2025.4 发布，11 月实施）
- GB/T 45652-2025《生成式 AI 预训练和优化训练数据安全规范》
- GB 45438-2025《网络安全技术人工智能生成合成内容标识方法》强制性国标（2025.2 发布，9 月实施）
- 《政务大模型应用安全规范》（TC260-004，2025.9，全国网安标委技术文件）
公安部第三研究所于 2025 年 8 月首次颁发大模型安全评估系统认证证书，意味着安全评估已经开始有官方认可的资质要求。

这些不是征求意见稿，是已经实施的国标和已经启动的认证。如果你的公司面向政企客户、涉及政务场景、或者需要做大模型备案，安全建设就不是"锦上添花"，而是"准入门槛"。

3.2 角度二：风险量化

算一算出事的成本，不需要假设最坏情况，看看已经发生的真实事件就够了。

DeepSeek 数据库泄露（2025 年 1 月）

以色列安全公司 Wiz 发现 DeepSeek 的 ClickHouse 数据库存在未授权访问漏洞，超过 100 万行日志暴露，包括 API 密钥、用户聊天记录和后端架构细节。事件发生在 DeepSeek 爆火当周，全球关注度极高。随后黑产团伙利用泄露的 API 密钥以 30 美元/月的价格对外售卖，形成黑色产业链。

来源：Reuters、The Hacker News

三星源代码泄露（2023 年 4 月）

三星工程师在 20 天内发生三起独立事件，将机密源代码和内部会议记录粘贴到公开版 ChatGPT 中。三星随后紧急禁止员工使用 ChatGPT，并投入资源开发内部安全 AI 工具。

来源：Forbes、Dark Reading

Air Canada 聊天机器人赔偿案（2024 年 2 月判决）

加航的聊天机器人错误告知乘客可以申请丧亲优惠退款，乘客据此购买了全价票。法院裁定加航未采取合理措施确保聊天机器人准确性，判决赔偿 812.02 加元。这是全球首批企业因 AI 聊天机器人虚假信息被判赔偿的案件。

来源：澎湃新闻

这些事件的共同特点是：不是模型本身出了 bug，而是安全设计缺失导致的系统性风险。数据库没做访问控制、员工使用外部工具没有管控、聊天机器人没有输出验证------每一项都是"如果在设计阶段就考虑到，完全可以避免"的问题。

3.3 角度三趋势预判

不做的机会成本分析：

Gartner 在 2026 年初做出了两个预测，一是到 2028 年 ，50% 的企业网络安全事件响应将聚焦于 AI 应用安全事件；二是到 2029 年，70% 的中国企业将实施 AI 安全测试。

IDC 的数据也显示：42% 的中国企业已开始大模型初步测试，17% 已引入实际业务。

这意味着什么？三年后，AI 安全会成为安全团队的主要工作之一。现在不建体系，到时候就是救火。

向管理层汇报时，建议用这个框架：

四、组织角色分工

大模型安全不是安全团队一家的事。三个角色必须明确分工：

4.1 安全团队：守住底线

定义安全标准和评估流程
建设护栏、监控、审计等安全基础设施
组织红队测试和安全评测
对接合规和监管要求

4.2 AI/算法团队：安全内建

在模型选型和训练阶段考虑安全因素
实现输入验证、输出过滤等应用层防护
配合安全团队完成模型安全评估
将安全要求写入 Agent 和工具调用的设计文档

4.3 业务团队：场景把控

明确每个 AI 应用场景的风险等级
参与定义"什么是可接受的输出"
在高风险场景设置人工审核环节
及时反馈线上异常

4.4 关键原则：安全团队定标准和底线，AI 团队负责技术实现，业务团队定义场景边界。三方缺一不可。

五、建设路线图：三阶段、各有交付物

Google 在 2025 年提出的 AI 安全治理"三步走"方法论，提供了一个清晰的落地路径。结合中国企业的实际情况，我调整为以下路线图：

5.1 第一阶段（1-3 个月）：看见资产，抓住高风险

目标：知道自己有什么、差在哪里、什么最优先。

Google 把这一步叫"发现 AI 资产"（Discover AI Inventory）。他们甚至专门做了敏感数据保护方案（DSP），内置 200+ 种敏感数据检测器，用来扫描 AI 相关的数据资产。

对于中国企业来说，这一步的最低成本做法是：先列一张表，把公司所有用到大模型的地方列出来------包括正式产品和员工自用的外部工具。这张表本身就是安全建设的起点。

阶段验收：不能只写"完成安全摸底"，要写清楚纳管比例、发现的高风险应用数量、下一步需要资源。

5.2 第二阶段（3-6 个月）：控制落地，门禁上线

目标：对最高优先级的应用完成安全加固，建立上线门禁。

这一阶段的核心是：不求全面，但求关键路径上的防护到位。优先解决提示注入、数据泄露、权限过大三个最高频风险。

阶段验收：写清楚控制覆盖率（RAG 检索前鉴权覆盖率、Agent 高风险工具人工确认覆盖率）、门禁执行率、评测基线通过率。

5.3 第三阶段（6-12 个月）：持续运营，形成闭环

目标：安全能力常态化运营，形成发现→修复→验证的闭环。

阶段验收：写清楚纳管比例、控制覆盖率、评测通过率、问题闭环率、合规材料完成度、下一阶段预算需求。这些指标越清楚，安全建设越容易获得持续资源。

六、一个可用的框架：从模型到生态

如果管理层问"我们的安全框架是什么"，可以参考 CSA（云安全联盟）在 2025 年发布的 MAESTRO 七层安全框架。它提供了一种较完整的 Agentic AI 安全分层视角，从底层模型到顶层生态系统，每一层都有明确的安全关注点：

不需要一次性覆盖全部七层，但可以用它来评估：你的公司现在在哪几层有防护，哪几层是空白的？

七、把路线图变成管理层能看懂的版本

向管理层汇报时，安全路线图不要讲技术细节。用"三句话"结构。

现状：我们目前有 X 个大模型应用，其中 Y 个没有安全防护，存在 Z 类合规风险
计划：分三阶段建设，第一阶段花 N 个月覆盖最高优先级应用，投入约 M 万元
预期效果：完成第一阶段后，关键应用的提示注入防御率达到 A%，数据泄露风险降低 B%，满足备案要求中的 C 项

每一阶段结束后做一次汇报，用数据说话：

护栏拦截了多少次攻击
红队测试发现了什么、修了什么
合规达标率从多少提升到多少

安全建设的价值不是"没出事"，而是"可以证明为什么没出事"。

八、系列导读

这篇文章是「大模型应用安全实践指南」系列的第一篇，定位是帮你把大模型安全从一个模糊的想法，变成一个可以推进的项目。

接下来的 7 篇，我们会从规划走到落地：

参考文献：

1.https://mp.weixin.qq.com/s/9gencJpHr7Z2pSHgIMgfFg