【学习笔记】探讨大模型应用安全建设系列6——合规备案：大模型备案与监管合规实操

合规不是最后补材料，而是大模型应用能不能对外提供服务、能不能进入政企场景、能不能通过安全评估的底线。600 多款模型已备案，国标已落地，公安部已发证------这不是"以后再说"的事，而是"现在就得准备"的事。

前面的文章讲了怎么评估、怎么防护、怎么管权限、怎么保供应链。这篇讲一个绕不开的话题：在中国做大模型应用，要过哪些合规关？ 这篇文章把合规路径梳理成可操作的清单。

一、从技术控制回到合规交付

前面讲评估、防护、权限和供应链，核心是把风险控制住。但在真实组织里，安全控制最终还要转化成合规材料、评估证据、备案准备和审计记录。否则技术上做了很多，交付时仍然说不清。

它把前面几篇的技术控制转成合规语言：哪些应用需要备案，哪些指标必须达标，哪些材料需要提前准备，哪些证据要能审计。

二、大模型备案：现状与要求

2.1 备案进展

截至 2025 年底，中国大模型备案进度：

2024 年底：累计 302 款完成备案
2025 年 3 月：累计 505 款（大模型备案 346 款，登记 159 款）
2025 年 6 月：新增 93 款
2025 年 11 月：再增 73 款

趋势很明确：备案从"可选项"变成了"必选项"。

2.2 哪些应用需要备案

根据《生成式人工智能服务管理暂行办法》，以下情况需要备案：

在中国境内向公众提供生成式 AI 服务
服务具有舆论属性或社会动员能力
利用生成式 AI 技术提供聊天、文本/图像/音视频生成等服务

不需要备案的情况：仅用于内部研发、不面向公众的服务。但即使不备案，也需要满足安全基本要求。

2.3 备案材料清单

备案核心材料包括：

算法基本信息：模型架构、训练数据来源、服务范围
安全评估报告：覆盖内容安全、数据安全、模型安全
关键词库证明：总规模 ≥ 10,000 个，每周至少更新一次
分类模型证明：覆盖 31 种安全风险（GB/T 45654-2025 附录 A）
测试题库证明：生成内容测试题库 ≥ 2,000 条，每月至少更新一次
拒答测试题库：≥ 500 条，非拒答测试题库 ≥ 500 条

三、五项合规硬指标

GB/T 45654-2025《生成式人工智能服务安全基本要求》是大模型合规的总纲性文件。其中有五项量化指标必须达标：

指标	要求	检测方式
语料合格率	≥ 96%	人工抽检不少于 4,000 条
关键词库规模	≥ 10,000 个	每违反社会主义核心价值观的细分类别 ≥ 200 个，歧视性内容每类 ≥ 100 个
生成内容安全合格率	≥ 90%	用测试题库检测
拒答率	≥ 95%	应拒答的必须拒答
非拒答率	≤ 5%	不应拒答的不能误拦

这五项指标是备案安全评估的核心考核项。 达不到就不能通过备案。

四、生成合成内容标识：强制性国标

《网络安全技术人工智能生成合成内容标识方法》是强制性国家标准，不是推荐性的。这意味着必须执行，没有选择空间。

4.1 标识要求

显式标识：在用户界面上明确标注内容由 AI 生成
隐式标识：在文件元数据中嵌入可机器识别的标识信息
可追溯：能够追溯到生成该内容的模型和服务提供者

4.2 技术实现方案

文本生成：在输出中添加水印或元数据标识
图像生成：在图像元数据中嵌入标识，或添加可见的水印
音视频生成：在文件头或元数据中嵌入标识信息

4.3 检测能力

网安标委在 2025 年 8 月发布了《人工智能生成合成内容检测》实践指南，梳理了四大类共 50 种 AIGC 鉴伪方法：

类型	方法数量	核心方法
文本检测	8 种	端到端分类器、微调大模型检测器、对比式检测
图片检测	14 种	物理一致性、频域特征、生成伪影、生成指纹
音频检测	9 种	频域特征、生成指纹、时频联合深度学习
视频检测	19 种	关键帧痕迹、时序不一致、多模态联合检测

五、等保 + AI 新增项：传统等保覆盖不了什么

很多团队以为过了等保就安全了。这是一个危险的误解。

等保是必要条件，不是充分条件。 大模型带来了三类等保完全没有覆盖的风险：

5.1 内容安全（等保：完全缺失）

模型正常使用中就可能生成违法有害内容。GB/T 45654-2025 要求覆盖 31 类违法不良信息，包括：

违反社会主义核心价值观（8 小类）
歧视性内容（9 小类）
商业违法违规（5 小类）
隐私权益保护（7 小类）
特定服务安全需求（2 小类）

5.2 模型攻击防御（等保：完全缺失）

提示注入、越狱、对抗样本、数据投毒、模型窃取------这些攻击方式完全不在等保的"入侵防范"和"恶意代码防范"范围内。

5.3 安全评估（等保：完全缺失）

等保有渗透测试，但没有模型安全评估和红队测试的要求。

5.4 补全路径：三步走

第一步：等保基线------传统层面的安全一个不能少

第二步：AI 安全专项评估，补覆盖五项：

训练数据安全评估
模型安全评估
模型防护能力评估
内容标识与可追溯评估
运行安全评估（监测、告警、应急、熔断）

第三步：持续合规运营------安全评测回归、红队对抗常态化、标准跟踪与对标（至少每季度一次）

六、数据出境与跨境合规

如果你的大模型应用涉及跨境场景（如调用境外模型 API、服务境外用户），

还需要关注：

数据出境安全评估（个人信息和重要数据）
跨境数据传输的合规要求
使用境外模型的合规风险（数据是否存储在境外服务器）

这是一个专门的合规领域，建议与法务团队协同处理。

七、核心标准速查表

标准	发布时间	性质	核心内容
GB/T 45654-2025	2025.4	国标	安全基本要求、31 类风险、5 项量化指标
GB/T 45652-2025	2025.4	国标	预训练数据安全规范
GB/T 45674-2025	2025.4	国标	数据标注安全规范
GB 45438-2025	2025.2	强制性国标（2025.9.1 实施）	显式/隐式标识、可追溯
TC260-004	2025.9	全国网安标委技术文件	政务大模型 21 个安全要求
AI 安全治理框架 2.0	2025.9	治理框架	风险分类分级、可追溯
4 份 AI 应用安全指南	2026.1	实践指南	总则、数据、用户、行业

安全负责人行动项：立即确认你的公司是否有面向公众的大模型应用。如果有，要求团队在两周内完成备案材料准备状态评估。

八、合规 Checklist

把以上内容整合成一份合规检查清单：

8.1 备案准备

确认是否需要备案（面向公众？有舆论属性？）

准备算法基本信息

完成安全评估报告

建设关键词库（≥ 10,000 个，每周更新）

建设生成内容测试题库（≥ 2,000 条，每月更新）

建设拒答/非拒答测试题库（各 ≥ 500 条，每月更新）

8.2 量化指标达标

语料合格率 ≥ 96%

生成内容安全合格率 ≥ 90%

拒答率 ≥ 95%，非拒答率 ≤ 5%

8.3 内容标识

实现显式标识（用户可见）

实现隐式标识（机器可读）

建立可追溯机制

8.4 AI 安全专项

完成训练数据安全评估

完成模型安全评估

完成模型防护能力评估

完成运行安全评估

8.5 持续合规

至少每季度做一次标准对标

跟踪国标更新

红队对抗常态化

九、小结

合规不是安全建设的终点，而是底线。在中国做大模型应用：

对面向公众、具有舆论属性或社会动员能力的生成式 AI 服务，备案是准入门槛
五项量化指标是硬考核------语料 ≥ 96%、生成 ≥ 90%、拒答 ≥ 95%
生成合成标识是强制性要求------必须实现显式和隐式标识
等保不够------必须补上内容安全、模型攻击防御、AI 安全评估三项
持续合规------至少每季度做一次对标，跟踪标准更新

参考资料：

GB/T 45654-2025《生成式人工智能服务安全基本要求》
GB/T 45652-2025《生成式 AI 预训练和优化训练数据安全规范》
GB 45438-2025《网络安全技术人工智能生成合成内容标识方法》（强制性国标，2025.9.1 实施）
TC260-004《政务大模型应用安全规范》
《人工智能安全治理框架》2.0 版
网安标委《人工智能生成合成内容检测》实践指南（50 种 AIGC 鉴伪方法）

参考文献：