【学习笔记】探讨大模型应用安全建设系列——顶层规划:如何推动公司级大模型安全建设-1

客服机器人、知识库问答、代码助手、Agent 自动化------不管哪个场景,大模型正在从"试试看"变成"真的在用"。但大多数团队的安全建设还没有跟上。模型上线了,护栏没装;Agent 能调工具了,权限没控;数据进上下文了,分级没做。

不是安全团队不重视,而是大模型安全跟传统安全确实不一样------攻击面变了,合规要求变了,甚至连"该谁来管"都还没理清楚。

这篇文章想回答一个很实际的问题:作为甲方安全负责人,怎么推动公司在大模型安全上真正投入资源、建立体系、拿到结果?

一、先厘清边界

大模型应用安全只是 AI 安全的一环。在正式谈建设路线之前,必须先把边界说清楚:大模型应用安全不是 AI 安全的全部。

如果把 AI 安全工程看成一套完整体系,至少会覆盖八类能力:数据安全、模型安全、大模型应用安全、Agent 与工具安全、AI 基础设施安全、内容与合规安全、安全评测与红队、安全运营与治理。大模型应用安全只是其中一块,重点解决的是"模型接入业务系统之后,输入、上下文、工具调用、输出、日志和责任链怎么可控"的问题。

这件事很重要。因为甲方安全负责人很容易遇到两种误区:

第一种误区,是把大模型应用安全当成传统 Web 安全的一个补丁,以为加一个 WAF、写几条提示词规则、做一点内容审核就够了。这样会漏掉 RAG 越权、间接提示注入、Agent 工具滥用、上下文泄露、模型输出责任等新问题。

第二种误区,是把大模型应用安全当成 AI 安全的全部,以为做了护栏、评测和备案,就等于公司 AI 安全体系已经建成。这样会漏掉训练数据安全、模型供应链、模型后门、基础设施隔离、算力平台安全、AI 研发治理等更底层的问题。

更准确的定位是:大模型应用安全是企业当前最容易落地、也最容易出事故的连接层。 它连接业务、数据、模型、用户、工具和日志,所以应该优先建设;但它不能替代完整的 AI 安全工程。

所以这篇文章讨论的是"公司级大模型安全建设怎么启动",不是宣称"做完大模型应用安全就完成了 AI 安全"。后续所有建设建议,都应该放在这个边界里理解:先把应用侧高风险链路管住,再逐步扩展到数据、模型、基础设施、合规和运营的完整 AI 安全体系。

二、为什么不能只按传统安全附属项来管

等保 2.0 能覆盖大模型安全吗?覆盖不了。

这不是否定等保的价值,而是大模型带来了一类全新的风险------等保的框架里根本没有对应项。

这个差距不是"加强一下"就能补的。等保的假设是:系统行为可预测、输入可控、权限边界清晰。但大模型系统不是这样工作的------自然语言同时承载了数据和指令,模型输出有不确定性,Agent 还能调用外部工具。

正确的认知是:等保是必要条件,不是充分条件。

大模型安全需要自己的建设立项、自己的评估标准、自己的运营流程。如果只把它当作传统安全的附属项来处理,大概率会变成"出了事再补"。

三、如何向管理层论证投入

安全团队最常见的困境是:大家都知道安全重要,但没人愿意先掏钱。大模型安全尤其如此------因为它还没有出过"让全公司停摆"的大事故,管理层很难感受到紧迫性。

三个角度可以用来论证:

3.1角度一:合规倒逼

不是"要不要做",是"不做过不了关"。

中国大模型监管已经进入实操阶段:

  • 截至 2025 年底,累计已有 600+ 款大模型完成备案。备案的前提是通过安全评估,而安全评估的标准在 2025 年集中落地了一批:

    • GB/T 45654-2025《生成式人工智能服务安全基本要求》(2025.4 发布,11 月实施)

    • GB/T 45652-2025《生成式 AI 预训练和优化训练数据安全规范》

    • GB 45438-2025《网络安全技术 人工智能生成合成内容标识方法》强制性国标(2025.2 发布,9 月实施)

    • 《政务大模型应用安全规范》(TC260-004,2025.9,全国网安标委技术文件)

  • 公安部第三研究所于 2025 年 8 月首次颁发大模型安全评估系统认证证书,意味着安全评估已经开始有官方认可的资质要求。

这些不是征求意见稿,是已经实施的国标和已经启动的认证。如果你的公司面向政企客户、涉及政务场景、或者需要做大模型备案,安全建设就不是"锦上添花",而是"准入门槛"

3.2 角度二:风险量化

算一算出事的成本,不需要假设最坏情况,看看已经发生的真实事件就够了。

DeepSeek 数据库泄露(2025 年 1 月)

以色列安全公司 Wiz 发现 DeepSeek 的 ClickHouse 数据库存在未授权访问漏洞,超过 100 万行日志暴露,包括 API 密钥、用户聊天记录和后端架构细节。事件发生在 DeepSeek 爆火当周,全球关注度极高。随后黑产团伙利用泄露的 API 密钥以 30 美元/月的价格对外售卖,形成黑色产业链。

来源:Reuters、The Hacker News

三星源代码泄露(2023 年 4 月)

三星工程师在 20 天内发生三起独立事件,将机密源代码和内部会议记录粘贴到公开版 ChatGPT 中。三星随后紧急禁止员工使用 ChatGPT,并投入资源开发内部安全 AI 工具。

来源:Forbes、Dark Reading

Air Canada 聊天机器人赔偿案(2024 年 2 月判决)

加航的聊天机器人错误告知乘客可以申请丧亲优惠退款,乘客据此购买了全价票。法院裁定加航未采取合理措施确保聊天机器人准确性,判决赔偿 812.02 加元。这是全球首批企业因 AI 聊天机器人虚假信息被判赔偿的案件。

来源:澎湃新闻

这些事件的共同特点是:不是模型本身出了 bug,而是安全设计缺失导致的系统性风险。数据库没做访问控制、员工使用外部工具没有管控、聊天机器人没有输出验证------每一项都是"如果在设计阶段就考虑到,完全可以避免"的问题。

3.3 角度三 趋势预判

不做的机会成本分析:

Gartner 在 2026 年初做出了两个预测,一是到 2028 年 ,50% 的企业网络安全事件响应将聚焦于 AI 应用安全事件;二是到 2029 年,70% 的中国企业将实施 AI 安全测试。

IDC 的数据也显示:42% 的中国企业已开始大模型初步测试,17% 已引入实际业务。

这意味着什么?三年后,AI 安全会成为安全团队的主要工作之一。现在不建体系,到时候就是救火。

向管理层汇报时,建议用这个框架

四、组织角色分工

大模型安全不是安全团队一家的事。三个角色必须明确分工:

4.1 安全团队:守住底线

  • 定义安全标准和评估流程

  • 建设护栏、监控、审计等安全基础设施

  • 组织红队测试和安全评测

  • 对接合规和监管要求

4.2 AI/算法团队:安全内建

  • 在模型选型和训练阶段考虑安全因素

  • 实现输入验证、输出过滤等应用层防护

  • 配合安全团队完成模型安全评估

  • 将安全要求写入 Agent 和工具调用的设计文档

4.3 业务团队:场景把控

  • 明确每个 AI 应用场景的风险等级

  • 参与定义"什么是可接受的输出"

  • 在高风险场景设置人工审核环节

  • 及时反馈线上异常

4.4 关键原则:安全团队定标准和底线,AI 团队负责技术实现,业务团队定义场景边界。三方缺一不可。

五、建设路线图:三阶段、各有交付物

Google 在 2025 年提出的 AI 安全治理"三步走"方法论,提供了一个清晰的落地路径。结合中国企业的实际情况,我调整为以下路线图:

5.1 第一阶段(1-3 个月):看见资产,抓住高风险

目标:知道自己有什么、差在哪里、什么最优先。

Google 把这一步叫"发现 AI 资产"(Discover AI Inventory)。他们甚至专门做了敏感数据保护方案(DSP),内置 200+ 种敏感数据检测器,用来扫描 AI 相关的数据资产。

对于中国企业来说,这一步的最低成本做法是:先列一张表,把公司所有用到大模型的地方列出来------包括正式产品和员工自用的外部工具。这张表本身就是安全建设的起点。

阶段验收:不能只写"完成安全摸底",要写清楚纳管比例、发现的高风险应用数量、下一步需要资源。

5.2 第二阶段(3-6 个月):控制落地,门禁上线

目标 :对最高优先级的应用完成安全加固,建立上线门禁。

这一阶段的核心是:不求全面,但求关键路径上的防护到位。优先解决提示注入、数据泄露、权限过大三个最高频风险。

阶段验收:写清楚控制覆盖率(RAG 检索前鉴权覆盖率、Agent 高风险工具人工确认覆盖率)、门禁执行率、评测基线通过率。

5.3 第三阶段(6-12 个月):持续运营,形成闭环

目标 :安全能力常态化运营,形成发现→修复→验证的闭环。

阶段验收:写清楚纳管比例、控制覆盖率、评测通过率、问题闭环率、合规材料完成度、下一阶段预算需求。这些指标越清楚,安全建设越容易获得持续资源。

六、一个可用的框架:从模型到生态

如果管理层问"我们的安全框架是什么",可以参考 CSA(云安全联盟)在 2025 年发布的 MAESTRO 七层安全框架。它提供了一种较完整的 Agentic AI 安全分层视角,从底层模型到顶层生态系统,每一层都有明确的安全关注点:

不需要一次性覆盖全部七层,但可以用它来评估:你的公司现在在哪几层有防护,哪几层是空白的?

七、把路线图变成管理层能看懂的版本

向管理层汇报时,安全路线图不要讲技术细节。用"三句话"结构。

  1. 现状:我们目前有 X 个大模型应用,其中 Y 个没有安全防护,存在 Z 类合规风险

  2. 计划:分三阶段建设,第一阶段花 N 个月覆盖最高优先级应用,投入约 M 万元

  3. 预期效果:完成第一阶段后,关键应用的提示注入防御率达到 A%,数据泄露风险降低 B%,满足备案要求中的 C 项

每一阶段结束后做一次汇报,用数据说话:

  • 护栏拦截了多少次攻击

  • 红队测试发现了什么、修了什么

  • 合规达标率从多少提升到多少

安全建设的价值不是"没出事",而是"可以证明为什么没出事"。

、系列导读

这篇文章是「大模型应用安全实践指南」系列的第一篇,定位是帮你把大模型安全从一个模糊的想法,变成一个可以推进的项目

接下来的 7 篇,我们会从规划走到落地:

参考文献:

1.https://mp.weixin.qq.com/s/9gencJpHr7Z2pSHgIMgfFg

相关推荐
令狐少侠20111 小时前
创建钉钉企业内应用,钉钉AI助手操作钉钉文档
ai·钉钉
问心无愧05131 小时前
ctf show web入门 89
android·前端·笔记
闵孚龙1 小时前
Claude Code 权限系统全解析:AI Agent 安全治理、权限模式、规则匹配、沙箱防护与企业落地实战
人工智能·安全
only-lucky1 小时前
QML深入学习三(JavaScript用法)
笔记
Orange_sparkle1 小时前
什么是前缀缓存,缓存命中
缓存·ai·deepseek·claude code
枫叶丹41 小时前
【HarmonyOS 6.0】Device Security Kit安全审计阻断功能深度解析
开发语言·安全·华为·harmonyos
一轮弯弯的明月1 小时前
Spring AOP编程
java·开发语言·spring boot·笔记·spring aop·学习心得
ljt27249606611 小时前
Vue笔记(二)--组件的属性和方法
前端·vue.js·笔记
JiaWen技术圈1 小时前
Web 安全防护 介绍
运维·nginx·安全