GB/T 45654-2025《生成式人工智能服务安全基本要求》

GB/T 45654-2025《网络安全技术生成式人工智能服务安全基本要求》是我国首个专门针对生成式人工智能服务安全制定的国家标准，于2025年4月25日发布，2025年11月1日正式实施。该标准作为《生成式人工智能服务管理暂行办法》的配套技术文件，为服务提供者、主管部门及第三方评估机构提供了明确、可检测、可评估的安全基线。标准重点面向具有舆论属性或社会动员能力的生成式人工智能服务，全面覆盖了从数据源头到服务运营的全链条安全要求。

一、训练数据安全要求

训练数据是生成式人工智能模型的基石，标准对此设立了严格的"入口"安全门槛。

1. 数据来源安全与"5%红线"

标准要求服务提供者对数据来源实施采集前安全评估和采集后安全核验。经评估或核验，数据内容中含违法不良信息情况超过5%的，不得采集或不得用作训练数据。这确立了数据质量的硬性量化指标。同时，标准明确了"三不采"原则，包括不应采集他人已通过技术手段（如robots协议）明确禁止采集的数据。

2. 数据内容管理

在用于训练前，必须对全部训练数据进行过滤，去除违法不良信息，并确保经人工抽检（不少于4000条）的训练数据合格率不低于96%。在知识产权方面，要求建立管理策略，不得侵害他人知识产权，并在用户协议中告知相关风险。使用包含个人信息或敏感个人信息的训练数据前，必须分别取得个人同意或单独同意。

3. 数据标注安全

针对标注环节，标准要求标注人员需经安全培训和考核合格后方可上岗。同时，必须实行职责隔离，标注执行和审核人员不得由同一人担任。还需分别制定功能性数据标注和安全性数据标注规则，其中安全性标注规则应覆盖附录A所列的全部31种安全风险。

二、模型安全要求

模型安全是保障服务质量和防范风险的核心。

1. 模型训练与环境安全

在训练过程中，必须将生成内容的安全性作为核心评价指标，并定期对模型进行后门存在性检测，发现后需及时处置。此外，模型训练环境与推理环境必须进行物理或逻辑隔离，以防止数据泄露等安全事件。

2. 模型输出安全与量化指标

标准对模型输出提出了明确的量化安全指标：模型生成内容的合格率应不低于90%，这里的"合格"是指不包含附录A所列31种安全风险。同时，模型需具备意图响应能力，确保生成内容的准确性（符合科学常识及主流认知）和可靠性（格式合理、有效内容含量高）。

模型还需建立智能拒答机制：对明显偏激或诱导生成违法不良信息的问题应拒绝回答。标准要求模型对拒答测试题的拒答率不低于95%，对非拒答测试题的拒答率不高于5%。对于图片、视频等生成内容，必须按国家规定进行标识。

三、安全措施要求

标准要求服务提供者通过完善的运营机制履行安全主体责任。

1. 服务透明度与用户权益

需在网站首页等显著位置公开服务的适用人群、场合、用途及局限性、模型概要等信息。当收集用户输入信息用于训练时，必须为用户提供便捷的关闭方式，例如从主界面到达关闭选项的操作不超过4次点击。

2. 监测、惩戒与投诉机制

应采取关键词、分类模型等方式对用户输入信息进行检测，并公示规则，对多次输入违法不良信息的用户采取暂停服务等措施。必须设置与服务规模相匹配的监看人员，以跟踪政策、分析投诉。同时，需提供明确的投诉举报途径、反馈方式，并设定处理规则和时限。

3. 端侧模型服务专门要求

针对部署在移动终端（端侧）的AIGC服务，标准提出了额外要求：首次使用需通过官方途径激活，联网时推送安全策略更新；需具备端侧安全模块对生成内容进行审核；安全日志需留存并支持上传或导出；需定期更新关键词库和安全配置。

GB/T 45654-2025《生成式人工智能服务安全基本要求》

一、训练数据安全要求

二、模型安全要求

三、安全措施要求

GB/T 45654-2025国家标准的出台，标志着我国生成式人工智能安全治理从原则性指引迈入了标准化、可操作的技术实施阶段。