【学习笔记】探讨大模型应用安全建设系列6——合规备案:大模型备案与监管合规实操

合规不是最后补材料,而是大模型应用能不能对外提供服务、能不能进入政企场景、能不能通过安全评估的底线。600 多款模型已备案,国标已落地,公安部已发证------这不是"以后再说"的事,而是"现在就得准备"的事。

前面的文章讲了怎么评估、怎么防护、怎么管权限、怎么保供应链。这篇讲一个绕不开的话题:在中国做大模型应用,要过哪些合规关? 这篇文章把合规路径梳理成可操作的清单。

一、从技术控制回到合规交付

前面讲评估、防护、权限和供应链,核心是把风险控制住。但在真实组织里,安全控制最终还要转化成合规材料、评估证据、备案准备和审计记录。否则技术上做了很多,交付时仍然说不清。

它把前面几篇的技术控制转成合规语言:哪些应用需要备案,哪些指标必须达标,哪些材料需要提前准备,哪些证据要能审计。

二、大模型备案:现状与要求

2.1 备案进展

截至 2025 年底,中国大模型备案进度:

  • 2024 年底:累计 302 款完成备案

  • 2025 年 3 月:累计 505 款(大模型备案 346 款,登记 159 款)

  • 2025 年 6 月:新增 93 款

  • 2025 年 11 月:再增 73 款

趋势很明确:备案从"可选项"变成了"必选项"。

2.2 哪些应用需要备案

根据《生成式人工智能服务管理暂行办法》,以下情况需要备案:

  • 在中国境内向公众提供生成式 AI 服务

  • 服务具有舆论属性或社会动员能力

  • 利用生成式 AI 技术提供聊天、文本/图像/音视频生成等服务

不需要备案的情况:仅用于内部研发、不面向公众的服务。但即使不备案,也需要满足安全基本要求。

2.3 备案材料清单

备案核心材料包括:

  1. 算法基本信息:模型架构、训练数据来源、服务范围

  2. 安全评估报告:覆盖内容安全、数据安全、模型安全

  3. 关键词库证明:总规模 ≥ 10,000 个,每周至少更新一次

  4. 分类模型证明:覆盖 31 种安全风险(GB/T 45654-2025 附录 A)

  5. 测试题库证明:生成内容测试题库 ≥ 2,000 条,每月至少更新一次

  6. 拒答测试题库:≥ 500 条,非拒答测试题库 ≥ 500 条

三、五项合规硬指标

GB/T 45654-2025《生成式人工智能服务安全基本要求》是大模型合规的总纲性文件。其中有五项量化指标必须达标:

指标 要求 检测方式
语料合格率 ≥ 96% 人工抽检不少于 4,000 条
关键词库规模 ≥ 10,000 个 每违反社会主义核心价值观的细分类别 ≥ 200 个,歧视性内容每类 ≥ 100 个
生成内容安全合格率 ≥ 90% 用测试题库检测
拒答率 ≥ 95% 应拒答的必须拒答
非拒答率 ≤ 5% 不应拒答的不能误拦

这五项指标是备案安全评估的核心考核项。 达不到就不能通过备案。

四、生成合成内容标识:强制性国标

《网络安全技术 人工智能生成合成内容标识方法》是强制性国家标准,不是推荐性的。这意味着必须执行,没有选择空间。

4.1 标识要求

  • 显式标识:在用户界面上明确标注内容由 AI 生成

  • 隐式标识:在文件元数据中嵌入可机器识别的标识信息

  • 可追溯:能够追溯到生成该内容的模型和服务提供者

4.2 技术实现方案

  1. 文本生成:在输出中添加水印或元数据标识

  2. 图像生成:在图像元数据中嵌入标识,或添加可见的水印

  3. 音视频生成:在文件头或元数据中嵌入标识信息

4.3 检测能力

网安标委在 2025 年 8 月发布了《人工智能生成合成内容检测》实践指南,梳理了四大类共 50 种 AIGC 鉴伪方法:

类型 方法数量 核心方法
文本检测 8 种 端到端分类器、微调大模型检测器、对比式检测
图片检测 14 种 物理一致性、频域特征、生成伪影、生成指纹
音频检测 9 种 频域特征、生成指纹、时频联合深度学习
视频检测 19 种 关键帧痕迹、时序不一致、多模态联合检测

五、等保 + AI 新增项:传统等保覆盖不了什么

很多团队以为过了等保就安全了。这是一个危险的误解。

等保是必要条件,不是充分条件。 大模型带来了三类等保完全没有覆盖的风险:

5.1 内容安全(等保:完全缺失)

模型正常使用中就可能生成违法有害内容。GB/T 45654-2025 要求覆盖 31 类违法不良信息,包括:

  • 违反社会主义核心价值观(8 小类)

  • 歧视性内容(9 小类)

  • 商业违法违规(5 小类)

  • 隐私权益保护(7 小类)

  • 特定服务安全需求(2 小类)

5.2 模型攻击防御(等保:完全缺失)

提示注入、越狱、对抗样本、数据投毒、模型窃取------这些攻击方式完全不在等保的"入侵防范"和"恶意代码防范"范围内。

5.3 安全评估(等保:完全缺失)

等保有渗透测试,但没有模型安全评估和红队测试的要求。

5.4 补全路径:三步走

第一步:等保基线------传统层面的安全一个不能少

第二步:AI 安全专项评估,补覆盖五项:

  1. 训练数据安全评估

  2. 模型安全评估

  3. 模型防护能力评估

  4. 内容标识与可追溯评估

  5. 运行安全评估(监测、告警、应急、熔断)

第三步:持续合规运营------安全评测回归、红队对抗常态化、标准跟踪与对标(至少每季度一次)

六、数据出境与跨境合规

如果你的大模型应用涉及跨境场景(如调用境外模型 API、服务境外用户),

还需要关注:

  • 数据出境安全评估(个人信息和重要数据)

  • 跨境数据传输的合规要求

  • 使用境外模型的合规风险(数据是否存储在境外服务器)

这是一个专门的合规领域,建议与法务团队协同处理。

七、核心标准速查表

标准 发布时间 性质 核心内容
GB/T 45654-2025 2025.4 国标 安全基本要求、31 类风险、5 项量化指标
GB/T 45652-2025 2025.4 国标 预训练数据安全规范
GB/T 45674-2025 2025.4 国标 数据标注安全规范
GB 45438-2025 2025.2 强制性国标 (2025.9.1 实施) 显式/隐式标识、可追溯
TC260-004 2025.9 全国网安标委技术文件 政务大模型 21 个安全要求
AI 安全治理框架 2.0 2025.9 治理框架 风险分类分级、可追溯
4 份 AI 应用安全指南 2026.1 实践指南 总则、数据、用户、行业

安全负责人行动项:立即确认你的公司是否有面向公众的大模型应用。如果有,要求团队在两周内完成备案材料准备状态评估。

八、合规 Checklist

把以上内容整合成一份合规检查清单:

8.1 备案准备

确认是否需要备案(面向公众?有舆论属性?)

准备算法基本信息

完成安全评估报告

建设关键词库(≥ 10,000 个,每周更新)

建设生成内容测试题库(≥ 2,000 条,每月更新)

建设拒答/非拒答测试题库(各 ≥ 500 条,每月更新)

8.2 量化指标达标

语料合格率 ≥ 96%

生成内容安全合格率 ≥ 90%

拒答率 ≥ 95%,非拒答率 ≤ 5%

8.3 内容标识

实现显式标识(用户可见)

实现隐式标识(机器可读)

建立可追溯机制

8.4 AI 安全专项

完成训练数据安全评估

完成模型安全评估

完成模型防护能力评估

完成运行安全评估

8.5 持续合规

至少每季度做一次标准对标

跟踪国标更新

红队对抗常态化

九、小结

合规不是安全建设的终点,而是底线。在中国做大模型应用:

  • 对面向公众、具有舆论属性或社会动员能力的生成式 AI 服务,备案是准入门槛

  • 五项量化指标是硬考核------语料 ≥ 96%、生成 ≥ 90%、拒答 ≥ 95%

  • 生成合成标识是强制性要求------必须实现显式和隐式标识

  • 等保不够------必须补上内容安全、模型攻击防御、AI 安全评估三项

  • 持续合规------至少每季度做一次对标,跟踪标准更新

参考资料

  • GB/T 45654-2025《生成式人工智能服务安全基本要求》

  • GB/T 45652-2025《生成式 AI 预训练和优化训练数据安全规范》

  • GB 45438-2025《网络安全技术 人工智能生成合成内容标识方法》(强制性国标,2025.9.1 实施)

  • TC260-004《政务大模型应用安全规范》

  • 《人工智能安全治理框架》2.0 版

  • 网安标委《人工智能生成合成内容检测》实践指南(50 种 AIGC 鉴伪方法)

参考文献:

1、探讨大模型应用安全建设系列6------合规备案:大模型备案与监管合规实操

相关推荐
通信小呆呆8 小时前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
H__Rick8 小时前
自动对焦学习-3
人工智能·学习·计算机视觉
Daisy Lee8 小时前
量化学习-第1章-什么是量化金融
学习·金融·datawhale
DaLi Yao9 小时前
【无标题】
人工智能·安全
Alsn869 小时前
等待学习-学习目录:Docker 容器安全攻防
学习·安全·docker
YM52e9 小时前
买菜计算器小应用 - HarmonyOS ArkUI 开发实战-PC版本
学习·华为·harmonyos·鸿蒙·鸿蒙系统
网络研究院9 小时前
2026年网络安全
网络·安全·法律·法规·趋势·发展
treesforest10 小时前
AI安全系统如何识别异常访问?IP风险识别正在成为关键能力
网络·人工智能·tcp/ip·安全·web安全
小雨下雨的雨10 小时前
HarmonyOS ArkUI训练营入门-组件掌握系列-Animation 动画效果实现-PC版本
学习·华为·harmonyos·鸿蒙
闪闪发亮的小星星10 小时前
高斯光以及高斯光公式解释
笔记