GB/T 45654-2025《网络安全技术 生成式人工智能服务安全基本要求》 是我国首个针对生成式 AI 服务安全的国家标准 ,是《生成式人工智能服务管理暂行办法》的核心配套技术文件,将监管政策转化为可量化、可检测、可评估 的技术指标,为大模型备案、安全评估、日常监管提供统一技术基线。
一、标准适用范围
-
适用主体:向境内公众提供文本、图像、音频、视频等生成服务的提供者(含API服务商)。
-
重点对象:具有舆论属性或社会动员能力 的生成式AI服务(强制备案范畴)。
标准构建 "训练数据安全 → 模型安全 → 服务运营安全" 三大模块、共29项具体要求 ,并在附录给出31类风险清单 与安全评估方法,实现从源头到输出的全流程管控。
二、三大安全模块与量化指标
(一)训练数据安全:源头合规"5%红线"
作为模型安全的第一道关卡,标准对数据采集、处理、标注提出刚性门槛。
- 来源安全:违法数据"一票否决"
- 采集前评估、采集后核验,违法不良信息占比>5%的数据集严禁使用。
- 数据必须合法、授权、可追溯 ,严禁侵权、非法爬取数据;境外语料占比≤30%。
- 个人信息需脱敏处理(准确率≥99%),采用匿名化、隐私计算等技术。
2. 内容安全:31类风险全过滤
- 覆盖违法、暴力、色情、歧视、虚假、隐私泄露等31小类风险。
- 建立数据清洗、去重、过滤机制,确保训练语料无明显安全缺陷。
3. 标注安全:质量与流程可控
-
规范标注人员、规则、流程,实行标注质量抽检(准确率≥95%)。
-
标注数据加密存储、权限隔离,防止数据泄露与篡改。
(二)模型安全:核心能力"95%拒答率"
模型全生命周期安全,明确可量化技术红线,直接对接备案测试要求。
- 训练与环境安全
- 训练/推理环境物理或逻辑隔离,定期后门检测、代码审计。
- 模型训练需加入安全性评价指标,用安全标注数据做对齐微调。
2. 输出安全:核心量化指标(备案必过线)
违法请求拒答率≥95%合法内容合格率≥90%(无31类风险虚假信息识别≥95%,低俗≥98%,歧视≥96%生成内容强制显著标识(文本标注、图像水印、隐式哈希)
3. 迭代安全
模型版本更新需重新安全评估 ,建立风险监控与回溯机制。
(三)服务运营安全:用户权益与应急保障
- 透明度与用户权利
- 公示服务范围、局限性、风险提示;用户可关闭输入用于训练(操作≤4步)。
- 投诉24小时响应、72小时办结,建立用户申诉渠道。
2. 内容监测与审核
- 实时输入/输出检测 ,"AI检测+人工审核",有害内容漏审率≤5%。
- 配备专职安全人员 ,对高风险内容先审后发。
3. 专项保护
-
未成年人保护:防沉迷、内容过滤、家长控制。
-
应急处置 :安全预案、1小时响应、24小时上报,每年至少1次应急演练。
三、对大模型备案的核心影响
1. 成为备案强制性技术依据
-
自标准实施起,具有舆论属性的生成式AI服务备案 ,必须逐条符合GB/T 45654-2025。
-
安全评估报告、测试题集、技术说明材料全部以本标准为唯一标尺,未达标直接驳回。
2. 备案审核:从"原则审查"转向"量化测试"
-
测试题集全覆盖 :备案测试必须覆盖标准附录31类风险、数千道题。
-
核心指标一票否决 :拒答率<95%、合格率<90%、脱敏率<99%等直接不通过。
-
材料要求升级:
1. 《安全评估报告》需逐条响应29项要求,附数据、测试、日志证明2. 提供语料清单、授权文件、标注规范、拦截规则、水印方案3. 提交模型训练/推理环境安全证明、应急处置预案
3. 备案主体与流程:明确"双备案"要求
-
必须备案 :自研/微调模型、面向公众、具舆论属性 → 大模型备案+算法备案双合规。
-
仅需登记 :纯调用已备案API、无二次训练 → 简化登记。
-
备案周期 :6--8个月,建议提前3--6个月启动。
4. 监管与处罚:未备案/不合规后果严重
-
未备案服务:立即下架、罚款、市场禁入。
-
日常检查:网信部门一年两次安全评估,按GB/T 45654抽查。
-
合规成为市场准入、政策补贴、招投标的必备条件。
四、AIGC合规建议
-
立即对标自查 :按29项要求做全项自评估 ,重点核查拒答率、数据合规、内容标识、用户权利。
-
数据合规先行 :清理违法/侵权数据,严控境外数据≤30%,完善授权与脱敏。
-
技术能力升级 :建设安全测试题库、内容审核系统、水印模块、用户关闭训练入口。
-
材料标准化 :准备备案表、安全评估报告、语料证明、测试记录、应急方案等全套文件。
-
分类合规:基础大模型严审、垂类模型适度、纯API调用简化登记。
五、GB/T 45654 备案自查清单
| 模块 | 自查项目 | 标准要求 | 自查结果(√/×/待完善) | 佐证材料 |
|---|---|---|---|---|
| 训练数据安全 | 1. 数据集违法信息占比 | 违法不良信息占比≤5%,严禁使用超5%的数据集 | 数据集审核报告、检测记录 | |
| 训练数据安全 | 2. 数据来源合规性 | 数据合法、授权、可追溯,无侵权、非法爬取 | 数据授权文件、采集流程说明 | |
| 训练数据安全 | 3. 个人信息脱敏 | 个人信息脱敏准确率≥99% | 脱敏测试报告、技术方案 | |
| 训练数据安全 | 4. 境外语料占比 | 境外语料占比≤30% | 语料清单、占比统计报告 | |
| 训练数据安全 | 5. 标注质量与安全 | 标注准确率≥95%,标注数据加密隔离 | 标注规范、质量抽检报告、存储安全证明 | |
| 模型安全 | 1. 违法请求拒答率 | 违法请求拒答率≥95% | 模型测试报告、拦截日志 | |
| 模型安全 | 2. 内容识别准确率 | 虚假≥95%、低俗≥98%、歧视≥96% | 内容检测测试报告 | |
| 模型安全 | 3. 生成内容标识 | 强制显著标识(文本/图像/音频等) | 标识方案、效果演示视频/截图 | |
| 模型安全 | 4. 模型迭代安全 | 版本更新需重新安全评估,有监控回溯机制 | 迭代评估报告、监控方案 | |
| 服务运营安全 | 1. 用户权利保障 | 用户可关闭输入用于训练(操作≤4步) | 操作演示截图、功能说明 | |
| 服务运营安全 | 2. 投诉响应时效 | 24小时响应、72小时办结 | 投诉处理记录、响应流程说明 | |
| 服务运营安全 | 3. 内容监测审核 | 实时检测,有害内容漏审率≤5%,有专职人员 | 审核日志、人员配置证明、漏审率统计 | |
| 服务运营安全 | 4. 未成年人保护 | 有防沉迷、内容过滤、家长控制功能 | 功能说明、演示截图 | |
| 服务运营安全 | 5. 应急处置 | 有安全预案,1小时响应、24小时上报,每年1次演练 | 应急预案、演练记录、上报流程 | |
| 备案材料 | 1. 安全评估报告 | 逐条响应29项要求,附完整证明材料 | 安全评估报告原件 | |
| 备案材料 | 2. 备案主体合规 | 需双备案的已完成大模型+算法备案,仅调用API的已完成简化登记 | 备案回执、登记证明 |