【学习笔记】探讨大模型应用安全建设系列6——合规备案:大模型备案与监管合规实操

合规不是最后补材料,而是大模型应用能不能对外提供服务、能不能进入政企场景、能不能通过安全评估的底线。600 多款模型已备案,国标已落地,公安部已发证------这不是"以后再说"的事,而是"现在就得准备"的事。

前面的文章讲了怎么评估、怎么防护、怎么管权限、怎么保供应链。这篇讲一个绕不开的话题:在中国做大模型应用,要过哪些合规关? 这篇文章把合规路径梳理成可操作的清单。

一、从技术控制回到合规交付

前面讲评估、防护、权限和供应链,核心是把风险控制住。但在真实组织里,安全控制最终还要转化成合规材料、评估证据、备案准备和审计记录。否则技术上做了很多,交付时仍然说不清。

它把前面几篇的技术控制转成合规语言:哪些应用需要备案,哪些指标必须达标,哪些材料需要提前准备,哪些证据要能审计。

二、大模型备案:现状与要求

2.1 备案进展

截至 2025 年底,中国大模型备案进度:

  • 2024 年底:累计 302 款完成备案

  • 2025 年 3 月:累计 505 款(大模型备案 346 款,登记 159 款)

  • 2025 年 6 月:新增 93 款

  • 2025 年 11 月:再增 73 款

趋势很明确:备案从"可选项"变成了"必选项"。

2.2 哪些应用需要备案

根据《生成式人工智能服务管理暂行办法》,以下情况需要备案:

  • 在中国境内向公众提供生成式 AI 服务

  • 服务具有舆论属性或社会动员能力

  • 利用生成式 AI 技术提供聊天、文本/图像/音视频生成等服务

不需要备案的情况:仅用于内部研发、不面向公众的服务。但即使不备案,也需要满足安全基本要求。

2.3 备案材料清单

备案核心材料包括:

  1. 算法基本信息:模型架构、训练数据来源、服务范围

  2. 安全评估报告:覆盖内容安全、数据安全、模型安全

  3. 关键词库证明:总规模 ≥ 10,000 个,每周至少更新一次

  4. 分类模型证明:覆盖 31 种安全风险(GB/T 45654-2025 附录 A)

  5. 测试题库证明:生成内容测试题库 ≥ 2,000 条,每月至少更新一次

  6. 拒答测试题库:≥ 500 条,非拒答测试题库 ≥ 500 条

三、五项合规硬指标

GB/T 45654-2025《生成式人工智能服务安全基本要求》是大模型合规的总纲性文件。其中有五项量化指标必须达标:

指标 要求 检测方式
语料合格率 ≥ 96% 人工抽检不少于 4,000 条
关键词库规模 ≥ 10,000 个 每违反社会主义核心价值观的细分类别 ≥ 200 个,歧视性内容每类 ≥ 100 个
生成内容安全合格率 ≥ 90% 用测试题库检测
拒答率 ≥ 95% 应拒答的必须拒答
非拒答率 ≤ 5% 不应拒答的不能误拦

这五项指标是备案安全评估的核心考核项。 达不到就不能通过备案。

四、生成合成内容标识:强制性国标

《网络安全技术 人工智能生成合成内容标识方法》是强制性国家标准,不是推荐性的。这意味着必须执行,没有选择空间。

4.1 标识要求

  • 显式标识:在用户界面上明确标注内容由 AI 生成

  • 隐式标识:在文件元数据中嵌入可机器识别的标识信息

  • 可追溯:能够追溯到生成该内容的模型和服务提供者

4.2 技术实现方案

  1. 文本生成:在输出中添加水印或元数据标识

  2. 图像生成:在图像元数据中嵌入标识,或添加可见的水印

  3. 音视频生成:在文件头或元数据中嵌入标识信息

4.3 检测能力

网安标委在 2025 年 8 月发布了《人工智能生成合成内容检测》实践指南,梳理了四大类共 50 种 AIGC 鉴伪方法:

类型 方法数量 核心方法
文本检测 8 种 端到端分类器、微调大模型检测器、对比式检测
图片检测 14 种 物理一致性、频域特征、生成伪影、生成指纹
音频检测 9 种 频域特征、生成指纹、时频联合深度学习
视频检测 19 种 关键帧痕迹、时序不一致、多模态联合检测

五、等保 + AI 新增项:传统等保覆盖不了什么

很多团队以为过了等保就安全了。这是一个危险的误解。

等保是必要条件,不是充分条件。 大模型带来了三类等保完全没有覆盖的风险:

5.1 内容安全(等保:完全缺失)

模型正常使用中就可能生成违法有害内容。GB/T 45654-2025 要求覆盖 31 类违法不良信息,包括:

  • 违反社会主义核心价值观(8 小类)

  • 歧视性内容(9 小类)

  • 商业违法违规(5 小类)

  • 隐私权益保护(7 小类)

  • 特定服务安全需求(2 小类)

5.2 模型攻击防御(等保:完全缺失)

提示注入、越狱、对抗样本、数据投毒、模型窃取------这些攻击方式完全不在等保的"入侵防范"和"恶意代码防范"范围内。

5.3 安全评估(等保:完全缺失)

等保有渗透测试,但没有模型安全评估和红队测试的要求。

5.4 补全路径:三步走

第一步:等保基线------传统层面的安全一个不能少

第二步:AI 安全专项评估,补覆盖五项:

  1. 训练数据安全评估

  2. 模型安全评估

  3. 模型防护能力评估

  4. 内容标识与可追溯评估

  5. 运行安全评估(监测、告警、应急、熔断)

第三步:持续合规运营------安全评测回归、红队对抗常态化、标准跟踪与对标(至少每季度一次)

六、数据出境与跨境合规

如果你的大模型应用涉及跨境场景(如调用境外模型 API、服务境外用户),

还需要关注:

  • 数据出境安全评估(个人信息和重要数据)

  • 跨境数据传输的合规要求

  • 使用境外模型的合规风险(数据是否存储在境外服务器)

这是一个专门的合规领域,建议与法务团队协同处理。

七、核心标准速查表

标准 发布时间 性质 核心内容
GB/T 45654-2025 2025.4 国标 安全基本要求、31 类风险、5 项量化指标
GB/T 45652-2025 2025.4 国标 预训练数据安全规范
GB/T 45674-2025 2025.4 国标 数据标注安全规范
GB 45438-2025 2025.2 强制性国标 (2025.9.1 实施) 显式/隐式标识、可追溯
TC260-004 2025.9 全国网安标委技术文件 政务大模型 21 个安全要求
AI 安全治理框架 2.0 2025.9 治理框架 风险分类分级、可追溯
4 份 AI 应用安全指南 2026.1 实践指南 总则、数据、用户、行业

安全负责人行动项:立即确认你的公司是否有面向公众的大模型应用。如果有,要求团队在两周内完成备案材料准备状态评估。

八、合规 Checklist

把以上内容整合成一份合规检查清单:

8.1 备案准备

\] 确认是否需要备案(面向公众?有舆论属性?) \[ \] 准备算法基本信息 \[ \] 完成安全评估报告 \[ \] 建设关键词库(≥ 10,000 个,每周更新) \[ \] 建设生成内容测试题库(≥ 2,000 条,每月更新) \[ \] 建设拒答/非拒答测试题库(各 ≥ 500 条,每月更新) #### 8.2 量化指标达标 \[ \] 语料合格率 ≥ 96% \[ \] 生成内容安全合格率 ≥ 90% \[ \] 拒答率 ≥ 95%,非拒答率 ≤ 5% #### 8.3 内容标识 \[ \] 实现显式标识(用户可见) \[ \] 实现隐式标识(机器可读) \[ \] 建立可追溯机制 #### 8.4 AI 安全专项 \[ \] 完成训练数据安全评估 \[ \] 完成模型安全评估 \[ \] 完成模型防护能力评估 \[ \] 完成运行安全评估 #### 8.5 持续合规 \[ \] 至少每季度做一次标准对标 \[ \] 跟踪国标更新 \[ \] 红队对抗常态化 ### 九、小结 合规不是安全建设的终点,而是底线。在中国做大模型应用: * 对面向公众、具有舆论属性或社会动员能力的生成式 AI 服务,备案是准入门槛 * 五项量化指标是硬考核------语料 ≥ 96%、生成 ≥ 90%、拒答 ≥ 95% * 生成合成标识是强制性要求------必须实现显式和隐式标识 * 等保不够------必须补上内容安全、模型攻击防御、AI 安全评估三项 * 持续合规------至少每季度做一次对标,跟踪标准更新 **参考资料**: * GB/T 45654-2025《生成式人工智能服务安全基本要求》 * GB/T 45652-2025《生成式 AI 预训练和优化训练数据安全规范》 * GB 45438-2025《网络安全技术 人工智能生成合成内容标识方法》(强制性国标,2025.9.1 实施) * TC260-004《政务大模型应用安全规范》 * 《人工智能安全治理框架》2.0 版 * 网安标委《人工智能生成合成内容检测》实践指南(50 种 AIGC 鉴伪方法) 参考文献: 1、[探讨大模型应用安全建设系列6------合规备案:大模型备案与监管合规实操](https://mp.weixin.qq.com/s?__biz=MzIyODEyOTgzNA==&mid=2649048723&idx=1&sn=e5414ad632e2eeaff87a2be5f23bc9b7&chksm=f0474bd6c730c2c02ab7a952ad3bed166998066353b5bc428c7c6231402a519bc250ba46189d&cur_album_id=4515833924559978506&scene=189#wechat_redirect "探讨大模型应用安全建设系列6——合规备案:大模型备案与监管合规实操")

相关推荐
kels88996 小时前
加密货币实时api的订单簿快照多久更新一次?
开发语言·笔记·python·金融·区块链
技术不好的崎鸣同学6 小时前
信息安全工程师之《网络安全体系与网络安全模型》
大数据·安全·web安全
Chockmans6 小时前
春秋云境CVE-2022-32992(文件上传和sql注入)保姆级教学
数据库·sql·安全·网络安全·网络攻击模型·春秋云境·cve-2022-32992
QiZhang | UESTC6 小时前
InstructGPT_论文精读笔记
人工智能·笔记·深度学习
xian_wwq6 小时前
【学习笔记】探讨大模型应用安全建设系列7——安全评测与红队测试
笔记·学习·安全
_李小白6 小时前
【android opencv学习笔记】Day 21: 形态学开运算与闭运算
android·opencv·学习
_李小白6 小时前
【Android车载学习笔记】第四天:AAOS系统架构
android·笔记·学习
天行健,君子而铎6 小时前
AI赋能·精准适配——知影-API风险监测系统筑牢教育数据流转安全防线
大数据·人工智能·安全
Upsy-Daisy6 小时前
AI Agent 项目学习笔记(十):文件操作、终端执行与 PDF 生成工具
笔记·学习·pdf