【学习笔记】大模型备案到底要交什么材料

"算法备案、大模型备案、登记备案到底要交哪些材料？网上说法五花八门，到底听谁的？"

我翻了十几份法规、国标和实践指南，把需要准备的材料从头到尾理了一遍。结论是：备案要交的东西，远比你想象的多，但也比你以为的有章可循。

一、先搞清楚要做的是哪种"备案"

很多人把三件事混在一起：算法备案、大模型备案、登记备案。它们不是一个东西。

简单说：

算法备案 ：只要你的产品用了算法推荐（个性化推送、排序精选、检索过滤等），就需要在互联网信息服务算法备案系统上填报。依据是《互联网信息服务算法推荐管理规定》（2022年3月施行）。
大模型备案：如果你自研或微调了大模型，并且对外提供服务，就需要走完整的大模型备案流程。材料更多、周期更长（通常3-6个月）。
登记备案：如果你只是调用已备案大模型的API，走登记管理就行，材料简单得多。

本文重点讲"大模型备案"要交的材料。 这是要求最全、也是最让人头疼的。

二、大模型备案的完整流程

在说材料之前，先过一遍流程，会更理解为什么要准备这些材料。

企业主动向属地网信办（省级）发起申请
网信办核准后反馈需要提交的材料，并选派指导老师
企业完成自评估，并准备备案所需材料（核心环节）
提交材料给属地网信办评估（可能涉及驳回修改）
属地网信办进行安全性评测（大模型接口安全评测）
提交材料给中央网信办复核（材料复核+接口安全评测）
通过后在互联网信息服务算法备案系统网站公示，备案完成

关键环节是第3步------自评估和材料准备。材料质量直接决定你被驳回几次、整个周期多长。

三、核心材料清单：一张图看全貌

根据《生成式人工智能服务管理暂行办法》、GB/T 45654-2025《网络安全技术生成式人工智能服务安全基本要求》以及实际备案经验，你需要准备的材料可以分为五大类：

算法机制说明------模型架构、算法原理、技术路线
训练数据安全报告------语料来源、标注规范、个人信息保护
模型安全评估报告------内容安全、拒答能力、公平性
安全措施说明------风险防范、内容标识、投诉举报
企业资质与制度------安全管理组织、应急预案、合规制度

下面逐项拆解。

四、逐项拆解：每类材料具体要什么

4.1 算法机制说明

这份材料要回答的核心问题是：你的模型是什么、怎么工作的。

需要涵盖的内容：

项目	具体要求
模型架构	Transformer/其他架构，参数规模，层数、注意力头数等
算法类型	生成合成类/个性化推送类/排序精选类等
训练方法	预训练、微调、RLHF/DPO等安全对齐方法
技术路线	基座模型来源（自研/开源二开），推理框架
服务形式	网页/API/嵌入APP，面向C端还是B端

小贴士：这部分建议由算法团队牵头撰写。如果基于开源模型二次开发，要写清楚基座模型名称、版本和改动内容。

4.2 训练数据安全报告

这是材料中工作量最大的部分，也是被驳回最多的地方。

依据标准：《生成式人工智能预训练和优化训练数据安全规范》和《生成式人工智能数据标注安全规范》。

核心量化指标（必须达标）：

训练数据整体合格率：≥96%
违法内容占比（红线）：≤5%
安全标注数据量：A.1类（17项违法内容）每项**≥200条** ，A.2类每项**≥100条**
个人信息知情同意：100%合规

需要准备的具体材料：

数据来源合法性证明------每个数据源的授权文件、采集合规说明
语料内容安全评估报告------抽样检测方法和结果，附抽检记录
个人信息保护说明------去标识化方案、同意机制、处理记录
知识产权合规说明------版权授权文件、权利人投诉处理机制
数据标注规范及执行记录------标注规则文档、人员培训记录、质量抽检记录

4.3 模型安全评估报告

这份材料回答的是：你的模型"说出来的话"安不安全。

依据标准：GB/T 45654-2025《网络安全技术生成式人工智能服务安全基本要求》。

核心量化指标：

指标	合规阈值	评估方法
生成内容安全合格率	≥90%	自动化测试（≥500条/风险类别）
违法内容输出率	0%（红线）	自动化测试 + 人工审核
正确拒答率	≥95%	对抗性输入测试
误拒率	≤5%	正常输入测试
拒答覆盖面	覆盖全部31类风险	附录A全覆盖

这份报告需要覆盖的内容：

语料安全评估------语料规模、来源、标注规则、训练服务器信息（算法部门牵头）
模型生成内容安全评估------31类违法不良信息的拒答与输出测试结果（算法+安全部门协同）
公平性与透明性评估------歧视性内容检测、模型可解释性说明
内容标识能力评估------AIGC显式/隐式标识是否完整、准确、持久

4.4 安全措施说明

这部分回答的是：你做了哪些防护，出了问题怎么处理。

需要涵盖：

类别	具体要求
输入内容监测	用户输入的违法内容识别、安全提示、上报机制
输出内容管控	生成内容审核、关键词拦截、实时过滤
内容标识	AIGC显式标识（水印/标签）、隐式标识（元数据）
个人信息保护	最小必要原则、用户查询/删除/更正权利保障
投诉举报机制	便捷入口、处理流程、反馈时限、记录留存
应急响应	安全事件应急预案、熔断机制、异常行为检测
未成年人保护	防沉迷、内容过滤、适龄提示

注意：这部分建议安全和法务部门联合撰写。标识部分参考《人工智能生成合成内容标识方法》（强制性国标）。

4.5 企业资质与安全管理制度

最后一类是"软性"材料，但同样重要：

安全管理组织架构图（负责人、安全团队配置）
安全管理制度体系文件
专职安全管理人员证明
安全培训记录
安全事件应急预案
定期安全评估记录（如有）

五、高频疑问速答

Q1：用开源模型需要备案吗？

要不要备案不取决于开源还是闭源，而是看你是否满足备案条件（面向公众提供服务、具有舆论属性或社会动员能力 ）。建议应备尽备，避免监管风险。

Q2：只给企业内部用呢？

如果企业体量较大，或者计划对外发布大模型服务，建议还是备案。

Q3：调用已备案大模型API需要什么？

不需要做大模型备案，但需要做算法备案和登记备案。走登记管理流程，材料简单得多。

Q4：原有APP接入大模型API的智能问答功能，要改隐私政策和用户协议吗？

不需要单独改。只有原生AI应用（如文心一言、豆包等）需要单独准备。

Q5：备案周期多长？

一般3-6个月，取决于材料质量和配合效率。

六、参考标准速查表

做备案时手边常备这几份标准：

标准名称	发布时间	性质	解决什么问题
《生成式人工智能服务管理暂行办法》	2023.7	部门规章	基本法规依据，算法备案和安全评估的顶层要求
《互联网信息服务算法推荐管理规定》	2022.3	部门规章	算法备案的流程、时限和材料框架
GB/T 45654-2025 生成式AI服务安全基本要求	2025.4	国标	模型备案上线的安全底线，量化指标来源
生成式AI预训练和优化训练数据安全规范	2025.4	国标	训练数据全流程安全要求
生成式AI数据标注安全规范	2025.4	国标	数据标注安全基线
人工智能生成合成内容标识方法	2025.2	强制性国标	AIGC内容标识要求

写在最后

大模型备案看起来材料很多，但拆开来看就是五件事：

说清楚你的模型是什么（算法机制说明）
证明你"喂"的数据是干净的（训练数据安全报告）
证明你的模型"说话"是安全的（模型安全评估报告）
证明你有防护和兜底措施（安全措施说明）
证明你的企业有安全管理体系（企业资质与制度）

每一步都有对应的标准可以参照，关键是要组织好团队、提前准备、按标准对齐。

备案不是目的，安全才是。但这些材料本身就是一个倒逼过程------在准备的过程中，你会发现很多之前没注意到的安全盲点。

参考文献：

1、https://mp.weixin.qq.com/s/4b_w6Tmezgmi5pPjnVZPgQ